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效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


作者 简介 
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Scibler 公 司 联合 创始 人 ， 负 责 数据 智能 产品 
的 架构 ; DataPhi Labs 公 司 联 合 创始 人 兼 首席 
架构 师 ， 专 注 于 构建 和 实施 软件 系统 。 他 拥有 
14 年 以 上 的 软件 行业 从 业经 验 ， 既 设计 过 企 
业 数 据 应 用 ， 也 开发 过 新 一 代 移 动 应 用 。 他 曾 
就 职 于 微软 总 部 和 微软 印度 研究 院 。 他 的 
Twitter 账号 是 @karanths，GitHub 账 号 是 
https://github.com/Karanth, 
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毕业 于 浙江 大 学 计算 机 科学 与 技术 专业 。 曾 就 
职 于 惠普 公司 ， 先 后 担任 技术 专家 、 研 发 经 理 
等 职位 。 现 任 1 号 店 资深 架构 师 ， 领 导 大 数据 
基础 平台 的 建设 。 专 注 于 分 布 式 存储 与 计算 、 
大 数据 分 析 等 。 


mns 2n 
曾 就 职 于 阿里 软件 、 中 国民 航 信息 网 络 股份 有 
限 公 司 上 海 分 公司 。 现 任 1 号 店 高 级 架构 师 ， 
主要 负责 大 数据 基础 平台 的 建设 。 专 注 于 数据 
仓库 、 分 布 式 计算 、 软 件 建 模 、 敏 捷 开 发 等 。 
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毕业 于 中 山大 学 物理 系 微 电 子 专业 ， 曾 就 职 于 
华为 交换 机 产品 部 、1 号 店 基础 架构 部 ， 擅 长 
网 络 通信 、 分 布 式 计算 等 。 现 于 佛罗里达 州立 
大 学 计算 机 系 攻读 机 器 学 习 方 向 硕士 学 位 。 
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内 容 提 要 


这 本 高 阶 教程 将 通过 大 量 示例 帮助 你 精通 Hadoop, fe Hadoop 最 佳 实践 和 技巧 。 主 要 内 容 包括 : 
Hadoop MapReduce, Pig 和 Hive 优化 策略 ，YARN 审读 剖析 ， 如 何 利用 Storm， 等 等 。 如 果 你 熟悉 Hadoop, 
并 想 将 自己 的 技能 再 提高 一 个 层次 ， 本 书 是 你 的 不 二 之 选 。 

本 书 适合 数据 处 理 相关 工作 的 专业 人 士 阅 读 。 
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Hadoop 作 为 MapReduce 的 一 个 具体 实现 ， 已 经 引起 了 广泛 关注 。 


今天 在 商业 、 科 研 等 方面 海量 数据 处 理 的 需求 已 经 越发 普遍 , 开源 的 Hadoop 成 为 自然 而 又 合 
理 的 选择 。 


“给 我 一 个 参数 , 我 能 让 大 象 的 尾巴 转 起 来 。” Hadoop 可 以 帮助 我 们 应 对 海量 数据 存储 与 分 析 
所 带 来 的 挑战 。Hadoop 具 有 很 好 的 可 扩展 性 、 可 靠 性 ,， 且 易于 理解 和 使 用 。 本 书 作者 是 一 位 从 事 
数据 工作 多 年 的 架构 师 , 在 大 数据 的 架构 及 应 用 上 具有 非常 丰富 的 经 验 , 并 且 发 表 了 不 少 相关 的 
主题 演讲 。 本 书 从 Hadoop 的 发 展 历程 开始 ,介绍 了 Hadoop 2.0 版 本 带 给 大 家 的 惊喜 。 其 中 不 仅 包 
括 了 Yarn、Pig、Hive 等 各 个 组 件 的 高 阶 应 用 , 而 且 还 对 如 何在 Yarn 上 引入 其 他 计算 框架 ( 如 Storm ) 
进行 了 描述 ， 这 也 为 读者 今后 在 实践 中 自行 引入 Tez、Spark 等 现在 流行 的 计算 框架 打下 了 基础 。 
除 此 以 外 ,本 书 还 包含 了 很 多 企业 级 应 用 中 不 可 缺少 的 功能 ， 如 云 、 联 合 、 安 全 等 。 而 对 于 上 述 
这 些 内 容 ， 书 中 既 有 准确 的 说 明 ， 又 有 翔实 的 示例 。 更 为 宝贵 的 是 ,作者 将 自己 在 10 多 年 的 项 目 
中 所 积累 的 经 验 归 纳 总 结 并 书写 下 来 ， 对 于 广大 读者 来 说 ， 这 是 十 分 珍贵 的 财富 。 


本 书 原著 是 用 英文 写作 的 , 它 的 内 容 组 织 得 当 ， 思路 清晰 ， 紧 密 结合 实际 。 但 是 要 把 它 翻译 
成 中 文 介绍 给 中 国 的 读者 , 并非 易 事 。 它 不 单单 要 求 译 者 能 够 熟练 地 掌握 英文 ， 还 要 求 他 对 书 中 
的 技术 性 内 容 有 深入 、 准 确 的 了 解 和 掌握 。 本 书 的 三 位 译 者 ,在 知名 的 互联 网 公司 中 从 事 着 大 数 
据 架 构 师 的 工作 ， 负 责 数 百 台 规 模 的 Hadoop 集 群 的 架构 设计 以 及 和 运营， 对 于 Hadoop 生 态 圈 的 各 
个 组 件 有 着 非常 丰富 的 实践 经 验 ， 同 时 在 开源 社区 中 也 很 活跃 。 在 他 们 的 努力 下 ， 本 书 中 文 版 终 
于 要 和 中 国 的 Hadoop 开 发 者 见面 了 。 初学 者 可 以 通过 阅读 这 本 书 入 门 , 有 一 定 经 验 的 开发 者 、 研 
究 者 也 可 以 通过 阅读 这 本 书 更 上 一 层 楼 。 和 希望 大 家 可 以 通过 阅读 这 本 书 获得 收获 。 
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近年 来 ， 随 着 “互联 网 +” 行 动 计划 的 提出 ,互联 网 业态 进一步 繁 来 ,信息 技 术 正 以 迅雷 不 
及 掩 耳 之 势 把 信息 转化 为 数据 ,但 是 人 们 如 何 利用 好 这 些 庞 大 的 数据 ， 挖 气 其 价值 呢 ?” 古 人 云 : 
“ 工 欲 善 其 事 ， 必 先 利 其 器 。 Hadoop 正 是 解决 数据 处 理 问题 的 一 把 利器 。Hadoop 发 展 至 今 已 相 
当成 熟 ， 可 以 说 用 好 Hadoop ， 就 能 在 “互联 网 +” 时 代 中 立 于 不 败 之 地 。 


但 是 要 驾驭 好 Hadoop 这 头 大 象 并 非 易 事 。 虽 然 Hadoop 有 强大 的 社区 作为 依托 ， 用 户 可 以 从 
社区 获得 一 些 帮 助 , 但 是 缺少 文档 描述 ,信息 零碎 ,各 种 最 佳 实践 散落 在 互联 网 的 各 个 角落 。 而 
本 书 可 以 作为 Hadoop 的 权威 资料 ， 其 内 容 详实 ,涵盖 了 Hadoop 生 态 圈 的 各 个 重要 组 件 ， 如 Hive、 
Pig、Storm， 对 于 这 些 组 件 的 介绍 由 浅 入 深 ， 如 Hive 方 面 不 但 介绍 了 如 何 使 用 ， 还 讲解 了 SQL 优 
化 器 等 内 容 。 本 书 作者 还 紧 跟 技术 发 展 潮流 ,对 Hadoop 2 的 一 些 新 特性 也 有 深入 讲解 ， 如 YARN、 
HDFS 块 放置 策略 等 ， 读 者 可 通过 这 些 内 容 迅速 掌握 新 特性 ， 有 助 于 在 今后 的 工作 中 更 好 地 使 用 
Tez、Spark 等 新 型 计算 引擎 。 此 外 ， 本 书 还 详细 介绍 了 一 些 企业 级 特性 ， 比 如 Hadoop Security, 
这 些 内 容 对 于 安全 地 保护 企业 数据 资产 很 有 帮助 。 本 书 最 后 还 介绍 了 亚马逊 AWS 和 微软 Azure 提 
供 的 Hadoop 云 服务 ， 读 者 可 以 学 到 如 何在 云 服务 上 迅速 搭建 Hadoop 集 群 。 除 以 上 内 容 之 外 ， 作 
者 还 在 书 中 融入 其 多 年 的 工作 经 验 ,， 这 些 经 验 可 以 说 是 无 价 之 宝 ， 如 小 文件 问题 的 处 理 、 任 务 的 
优化 等 , 可 以 帮助 Hadoop 用 户 少 走 弯 路 ， 降 低 使 用 风险 。 总 之 ,此 书 与 众 不 同 , 在 理论 和 应 用 之 
间 找 到 了 一 个 绝 佳 的 平衡 点 。 掌 握 Hadoop， 有 此 书 足 余 。 


另外 ,本 书 的 译 者 , 在 他 们 的 公司 中 运 维 着 大 型 Hadoop 和 集群， 对 于 Hadoop、Hive、Tez、Spark 
等 都 有 着 丰富 的 应 用 经 验 ,， 并且 在 Tez、Hive 等 开源 社区 中 也 很 活跃 。 通 过 他 们 的 翻译 ， 可 以 说 本 
书 中 文 版 的 内 容 做 到 了 信 、 达 。 我 相信 本 书 对 于 Hadoop 使 用 者 和 开发 者 来 说 都 是 一 份 珍贵 的 资料 。 
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译 者 序 


“数据 爆炸 的 时 代 已 经 来 临 了 吗 ? ” 毫 无 疑问 ， 答 案 是 肯定 的 。 随 着 移动 互联 的 普及 ， 数 据 
已 经 呈 指 数 倍增 长 。 但 是 , 我 们 注意 到 此 轮 爆 炸 的 数据 大 多 来 自 社交 及 电 商 类 。 随 着 工业 互联 网 
的 发 展 ， 越 来 越 多 的 数据 以 及 新 鲜 概 念 会 出 现在 我 们 的 生活 中 ， 并 改变 我 们 的 生活 。 试 想 一 下 ， 
如 冰箱 、 空 调 、 电 视 之 类 的 家 用 电 顺 触 网 以 后 ,每 时 每 刻 向 制造 商 或 是 内 容 提供 商 传输 数据 的 场 
面 ; 你 所 穿戴 的 鞋 服 ， 你 所 乘坐 的 交通 工具 ， 你 所 居住 的 智能 楼 宇 ， 将 来 你 周围 的 一 切 一 切 ， 包 
括 衣食 住 行 ， 每 时 每 刻 都 会 产生 并 传输 着 各 种 各 样 的 数据 。 那 时 的 数据 规模 将 会 是 如 何 之 庞大 ， 
不 敢 想 象 ， 而 现在 ， 爆 炸 才刚 刚 开 始 。 


“你 ， 做 好 准备 了 吗 ? ”每 当 想到 刚才 所 言 的 场面 时 ， 都 会 有 点 儿 小 怕 ， 但 更 多 的 是 激动 和 
兴奋 ， 因 为 我 们 身 处 这 波浪 潮 之 中 。 我 们 迎 着 风 ， 踏 着 浪 ， 朝 着 浪潮 的 襄 峰 前 进 。 为 此 ， 我们 必 
须 有 所 准备 ,我 们 学 习 如 何 收集 这 些 海量 的 数据 ， 如 何 清洗 、 转 换 、 分 析 它 们 ， 并 最 终 形成 有 用 
的 信息 , 希望 能 反馈 给 这 个 世界 。 TAZ, 工 欲 善 其 事 , 必 先 利 其 器 。 而 我 们 的 利器 就 是 Hadoop。 
作为 开源 的 分 布 式 通用 计算 平台 , 该 系统 已 被 广泛 采用 。 围 绕 着 Hadoop 的 生态 圈 , 我 们 可 以 轻松 
地 完成 之 前 所 说 的 各 种 工作 ， 并 愿意 将 它 推荐 给 更 多 的 人 来 使 用 。 


年 中 ， 当 我 们 接触 到 Mastering Hadoop 一 书 时 ， 就 决定 要 将 它 尽 快 翻译 成 中 文 并 出 版 。 因 为 
这 本 书 中 不 仅 包 含 了 很 多 Hadoop 重 要 组 件 的 最 新 特性 ,更 关键 的 是 它 还 包含 了 很 多 作者 在 职业 生 
涯 中 通过 各 种 项 目 所 积累 的 最 佳 实践 和 建议 。 这 些 最 佳 实践 和 建议 ， 即 使 是 我 们 这 些 长 期 与 
Hadoop 打 交道 的 人 也 觉得 获 益 菲 浅 。 所 以 我 们 也 希望 这 本 书 能 为 广大 的 Hadoop 使 用 者 和 对 大 数 
据 感 兴趣 的 人 提供 帮助 。 

本 书 主要 分 为 12? 章 和 1 个 附录 。 参 加 本 书 翻 译 工 作 的 还 有 唐 疝 售 和 陈 智 威 两 位 同事 , 其 中 第 1、 
2、6、12 章 由 陈 智 威 翻译 ， 第 4、$、8、9、10 章 以 及 附录 由 唐 册 售 翻译 。 他 们 以 自己 的 专长 和 领 
域 知 识 ， 为 本 书 提供 了 相应 章节 的 内 容 翻 译 。 
最 后 要 感谢 我 们 的 家 人 、 同 事 给 予 的 支持 ， 使 得 我 们 能 够 按时 完成 翻译 。 感 谢 图 灵 公 司 对 我 
们 的 信任 ， 将 本 书 的 翻译 工作 交付 给 我 们 。 感 谢 所 有 参与 本 书 编辑 、 审 校 和 出 版 的 每 个 人 。 

刘 森 @]1 号 店 
2015 年 10 月 于 上 海 浦东 
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我 们 处 在 一 个 由 数据 主导 决策 的 时 代 。 存储 成 本 在 降低 ,网 络 速 度 在 提升 , 周围 的 一 切 都 在 
变 得 可 以 数字 化 ， 因 此 我 们 会 定 不 犹疑 地 下 载 、 存 储 或 与 周围 的 其 他 人 分 享 各 类 数据 。 大 约 20 
年 前 , 相机 还 是 一 个 使 用 胶片 来 捕捉 图 片 的 设备 , 每 张 照片 所 捕捉 的 都 要 是 一 个 近乎 完美 的 镜头 ， 
且 底 片 的 存储 也 要 小 心 翼 避 ,以 防 损坏 。 要 冲洗 这 些 照 片 则 需要 更 高 的 成 本 。 从 你 按 动 快门 到 看 
到 拍摄 的 图 片 几乎 需要 一 天 的 时 间 。 这 意味 着 捕捉 下 来 的 信息 要 少 得 多 , 因为 上 述 因 素 阻碍 了 人 
们 记录 生活 的 各 个 瞬间 ， 只 有 那些 被 认为 重要 的 时 刻 才 被 记录 下 来 。 


然而 ， 随 着 相机 的 数字 化 ， 这 种 情况 得 到 了 改变 。 我 们 几乎 随时 随地 都 会 这 不 犹疑 地 拍照 ; 
我 们 从 来 不 担心 存储 的 问题 ， 因 为 TB 级 别 (27 ) 的 外 部 磁盘 可 以 提供 可 靠 的 备份 ; 我 们 也 很 少 
到 哪儿 都 带 着 相机 , 因为 可 以 使 用 移动 设备 拍摄 照片 ; 我 们 还 有 如 Instagram 这 样 的 应 用 给 照片 添 
加 特效 并 分 享 这 些 美 图 ; 我 们 收集 关于 图 片 的 意见 和 信息 ,还 会 基于 这 些 内 容 做 出 决策 ; 我 们 几 
乎 不 放 过 任何 时 刻 ， 无 论 它 们 重要 与 否 ， 都 会 将 其 存 人 纪念 册 中 。 大 数据 的 时 代 来 临 啦 ! 


在 商业 上 ， 大 数据 时 代 也 带 来 了 类 似 的 变化 。 每 项 商业 活动 的 方方面面 都 被 记录 了 下 来 : 
为 提高 服务 质量 ， 记 录 下 用 户 在 电子 商务 页 面 上 的 所 有 操作 ; 为 进行 交叉 销售 或 追加 销售 ， 记 
录 下 用 户 严 下 的 所 有 商品 。 商 家 连 客户 的 DNA 恨 不 得 都 想 掌 握 , 因此 只 要 是 能 得 到 的 客户 数据 ， 
他 们 都 会 想 办 法 得 到 ， 并 一 个 一 个 抬 指 研究 。 商 家 也 不 会 受到 数据 格式 的 困扰 ， 无 论 是 语音 、 
图 像 、 自 然 语 言 文本 ， 还 是 结构 化 数据 ， 他 们 都 会 欣然 接受 。 利 用 这 些 数据 点 ， 他 们 可 以 驱使 
用 户 做 出 购买 决定 ， 并 且 为 用 户 提供 个 性 化 的 体验 。 数 据 越 多 ， 越 能 为 用 户 提供 更 好 、 更 深入 
的 个 性 化 体验 。 


从 某 些 方 面 来 讲 , 我 们 已 经 准备 好 接受 大 数据 的 挑战 了 。 然而, 分 析 这 些 数据 的 工具 呢 ? 它 
们 能 处 理 如 此 庞大 、 快 速 、 多 样 化 的 新 数据 吗 ? 理论 上 说 ， 所 有 数据 都 可 以 放 到 一 台 机 器 上 , 但 
这 样 一 台 机 带 的 成 本 要 多 少 ? 它 能 满足 不 断 变化 的 负载 需求 吗 ?我 们 知道 超级 计算 机 可 以 做 到 
这 一 点 , 但 是 全 世界 的 超级 计算 机 也 就 那么 几 台 ,而 且 都 不 具有 伸缩 性 。 蔡 代 方 案 就 是 构建 一 组 
机 顺 、 一 个 集群 或 者 串联 的 计算 单元 来 完成 一 项 任务 。 一 组 使 用 高 速 网 络 互 相连 接 的 机 顺 可 以 提 
供 更 好 的 伸缩 性 和 灵活 性 ,但 那 还 不 够 。 这 些 集群 还 要 可 编程 。 大 量 的 机 器 ， 就 像 一 群 人 ， 需 要 
更 多 的 协调 和 同步 。 机 器 的 数量 越 多 ,集群 中 出 现 故 障 的 可 能 性 就 越 大 。 如 何 使 用 一 种 简单 的 方 
法 处 理 同 步 和 容错 ， 从 而 减轻 程序 员 的 负担 呢 ? 答案 是 使 用 类 似 于 Hadoop 的 系统 。 


Hadoop 可 以 认为 是 大 数据 处 理 的 同义词 。 简 单 的 编程 模型 ,“ 一 次 编码 ， 任 意 部 署 >， 和 日 


益 增 长 的 生态 圈 ， 使 得 Hadoop 成 为 一 个 可 供 不 同 技能 水 平 的 程序 员 共 同 使 用 的 平台 。 今天 , 它 
是 数据 科学 领域 首届 一 指 的 求职 技能 。 要 去 处 理 和 分 析 大 数据 , Hadoop 成 为 了 理所当然 的 工具 。 


Hadoop 2.0 扩 张 了 7 它 的 羽翼 , 使 其 能 覆盖 各 种 类 型 的 应 用 模式 ， 并 解决 更 大 范围 的 问题 。 它 很 快 
成 为 所 有 数据 处 理 需求 的 一 个 通用 平台 ， 并 将 在 不 久 的 将 来 成 为 各 个 领域 中 每 个 工程 师 的 必 备 


技能 。 


本 书 涵盖 了 对 MapReduce、Pig 和 Hive 的 优化 及 其 高 级 特性 ， 同 时 也 展示 了 如 何 使 用 Hadoop 


2.0 版 本 扩展 Hadoop 的 能 


Hadoop 2.0 版 本 的 发 布 使 其 成 为 一 个 通用 群 机 计算 平台 。 本 书 阐明 了 为 实现 这 一 点 而 在 平台 


层面 所 做 出 的 改变 , 也 介绍 了 对 MapReduce 作 业 以 及 像 Pig、Hive 这 种 高 级 抽象 功能 进行 优化 的 行 
业 准 则 , 并 对 一 些 高 级 作业 模式 以 及 它们 的 应 用 进行 了 讨论 。 这 些 论述 将 帮助 Hadoop 用 户 优化 已 
有 的 应 用 作业 ， 并 将 它们 迁移 到 Hadoop 2.0 版 本 。 随 后 ， 本 书 深入 探讨 了 Hadoop 2.0 的 专属 特性 ， 
如 YARN ( Yet Another Resource Negotiator )、HDFS 联 合 , 并 辅 以 实例 。 本 书后 半 部 分 还 探讨 了 使 
用 其 他 文件 系统 蔡 换 HDFS 的 问题 。 只 要 理解 了 上 述 这 些 问题 ,Hadoop 用 户 就 可 以 将 Hadoop 应 用 


扩展 到 其 他 的 应 用 模式 和 存储 格式 ， 使 集群 的 资源 得 到 更 高 效 的 利用 。 


这 是 一 本 唆 焦 于 Hadoop 高 级 概念 和 特性 的 参考 书 ,每 一 个 基本 概念 都 使 用 代码 段 或 者 示意 图 


来 解释 ， 而 这 些 概 念 在 章节 中 出 现 的 顺序 则 是 由 数据 处 理 流程 的 先后 决定 的 。 


本 书 内 容 
a 第 1 章 ，Hadoop 2.X， 讨 论 Hadoop 2.X 版 本 相 比 先前 的 版 本 做 了 哪些 改进 。 


特性 。 


化 和 反 序 列 化 支持 的 概念 ,以 及 它们 存在 的 必要 性 ; Avro ,一 种 第 三 方 序列 化 
中 可 用 的 数据 压缩 编码 器 ; 上 述 组 件 间 的 权衡 ; 最 后 ， 介 绍 了 Hadoop 中 的 文 


口 第 2 章 ，MapReduce 进 阶 ， 通 过 举例 帮助 你 理解 Hadoop MapReduce 的 最 佳 实践 和 最 佳 模式 。 
口 第 3 章 ，Pig 进 阶 , 讨论 Pig 的 高 级 特性 , 它 是 一 种 在 Hadoop 中 编写 MapReduce 作 业 的 框架 。 
口 第 4 章 ，Hive 进 阶 , 讨论 Hadoop MapReduce 中 一 种 更 高 层面 的 SQL 抽象 ( 即 Hive ) 的 高 级 


口 第 5 章 ， 序 列 化 和 Hadoop VO ， 讨 论 Hadoop 的 IO 能 力 。 这 一 章 着 重 讨论 了 Hadoop 中 序列 


[£4 ; Hadoop 


件 格 式 。 


口 第 6 章 ,，YARN 一 一 其 他 应 用 模式 进入 Hadoop 的 引路 人 。 讨论 Hadoop 2.X 中 一 种 新 的 资源 管 
FS YARN ( 另 一 种 资源 协调 者 ), 以 及 它 如 何 将 其 他 计算 模式 引入 到 Hadoop 平 台中 。 
口 第 7 章 ， 基 于 YARN 的 Storm 一 一 Hadoop 中 的 低 延 时 处 理 ， 讨 论 的 是 一 种 与 MapReduce 这 


样 的 批量 处 理 系统 恰恰 相反 的 计算 模型 ， 即 让 数据 流向 计算 ， 并 对 两 种 不 同 的 模式 进行 
You. Amd per Apache Storm 的 架构 以 及 如 何在 Storm 中 开发 应 用 。 最 后 ， 你 将 学 


习 如 何在 Hadoop 2.X 中 使 用 YARN 来 配置 Storm。 


uj 


viii 前 


口 第 8 章 ， 云 上 的 Hadoop ， 讨 论 云 计 算 的 特点 ， 以 及 云 计 算 服务 供应 商 如 何 使 用 Hadoop 平 
台 提 供 服务 。 此 外 ， 还 深入 探讨 了 亚马逊 的 Hadoop 服 务 管理 ， 也 就 是 所 谓 的 Elastic 
MapReduce (EMR )， 并 研究 如 何在 Hadoop EMR 集 群 中 准备 并 执行 作业 。 

a 第 9 章 ，HDFS 蔡 代 品 ， 讨 论 HDFS 相 对 于 其 他 文件 系统 的 优点 和 缺点。 本 章 还 特别 关注 
Hadoop 对 亚马逊 的 S3 云 存储 服务 的 支持 。 最 后 ， 通 过 实现 Hadoop 对 S3 原 生 文件 系统 的 支 
持 来 扩展 Hadoop ， 从 而 证 明 Hadoop HDFS 的 可 扩展 性 。 

D 第 10 章 ，HDFS 联 合 ， 讨 论 HDFS 联 合 的 优点 及 其 架构 。 同 时 还 讨论 在 MapReduce 环 境 中 

HDFS 获 得 成 功 的 核心 因素 : 块 布局 策略 。 

Q 第 11 章 ，Hadoop 安 全 ， 聚 焦 于 Hadoop 集 群 的 安全 方面 。 安 全 的 主要 保障 是 认证 、 授 权 、 

审计 和 数据 保护 。 我 们 会 在 这 些 方面 一 一 阐述 Hadoop 的 特点 。 

a 第 12 章 ， 使 用 Hadoop 进 行 数据 分 析 ， 讨 论 更 高 级 的 分 析 流 程 、 机 器 学 习 等 相关 技术 ， 以 
及 它们 对 Hadoop 的 支持 。 本 章 列举 了 一 个 在 Hadoop 中 使 用 Pig 分 析 文 档 的 例子 ， 以 演示 数 
据 分 析 功 能 。 

口 附录 ， 微 软 Windows 中 的 Hadoop ， 探 索 在 Hadoop 2.0 版 本 中 微软 Windows 操 作 系 统 对 
Hadoop 的 原生 支持 。 本 章 中 , 我 们 将 了 解 Windows 是 如 何 原生 支持 Hadoop 的 构建 和 部 署 的 。 


阅读 准备 
在 尝试 本 书 中 的 例子 之 前 ， 你 需要 准备 以 下 软件 。 


口 Java 开 发 工具 包 (JDK 1.7 及 以 上 版 本 ): 这 是 Oracle 公 司 的 一 个 免费 软件 ， 它 为 开发 者 提 

供 了 JRE (Java Runtime Environment ) 和 其 他 工具 。 下 载 地 址 : http://www.oracle.com/ 
technetwork/java/javase/downloads/index.html。 

口 编写 Java 代 码 用 的 集成 开发 环境 : 这 里 使 用 IntelliJ IDEA 来 开发 例子 ,但 其 他 的 集成 开发 
环境 也 是 可 以 使 用 的 ,IntelliJ IDEA 的 社区 版 本 可 以 从 这 里 下 载 : https:/www.jetbrains.com/ 
idea/download/。 

口 Maven: 本 书 中 使 用 Maven 构 建 例子 。Maven 可 以 自动 解决 依赖 ,并 使 用 XML 文 件 进行 配 
置 。 各 章 中 的 示例 代码 可 以 使 用 两 个 简单 的 Maven 命 令 来 构建 成 一 个 JAR 文 件 : 


mvn compile 
mvn assembly:single 


这 些 命令 将 代码 编译 成 一 个 JAR 文 件 ， 并 与 依赖 的 文件 一 起 生成 一 个 联合 JAR 文 件 。 
在 构建 联合 JAR 文 件 时 ,很 关键 的 一 点 是 要 修改 pom.xml 文 件 中 引用 的 mainclass 为 需要 
执行 的 类 名 。 
Hadoop 相 关 的 JAR 文 件 可 以 使 用 如 下 命令 执行 : 


hadoop jar «jar file» args 


qi 


ix 


这 个 命令 直接 从 pom.xml 文 件 中 指定 的 mainclass 获 取 驱 动 程序 。 你 可 以 从 
http://maven.apache.org/download.cgi 下 载 得 到 Maven。 用 于 构建 本 书 例子 的 Maven 的 XML 
文件 模板 如 下 所 示 : 


«?xml version-"1.0" encoding="UTF-8"?> 
«project xmlns-"http://maven.apache.org/POM/4.0.0" 
xmlns:xsi-"http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation-"http://maven.apache.org/POM/4.0.0 http:// 
maven.apache.org/xsd/maven-4.0.0.xsd"» 
«modelVersion»4.0.0«/modelVersion-» 
«groupId»MasteringHadoop«/groupId» 
«artifactId»MasteringHadoop«/artifactId» 
«version»1.0-SNAPSHOT«/version-» 
«build» 
«plugins» 

«plugin» 
«groupId»org.apache.maven.plugins«/groupId» 
«artifactId»maven-compiler-plugin«/artifactId» 
«version»3.0«/version» 

«configuration» 

«source»1.7«/source» 
«target»1.7«/target» 

«/configuration-» 

«/plugin» 

«plugin» 

«version»3.1«/version» 

«groupId»org.apache.maven.plugins«/groupId» 

«artifactlId»maven-jar-plugin«/artifactId» 

«configuration» 

«archive» 
«manifest» 
«mainClass»MasteringHadoop.MasteringHadoopTest«/mainClass» 
«/manifest» 
«/archive» 

«/configuration-» 

«/plugin» 

«plugin» 
«artifactId»maven-assembly-plugin«/artifactId» 
«configuration» 

«archive» 
«manifest» 

«mainClass»MasteringHadoop.MasteringHadoopTest«/mainClass» 

«/manifest» 

«/archive» 

«descriptorRefs» 
«descriptorRef»jar-with-dependencies«/descriptorRef» 

«/descriptorRefs» 

«/configuration-» 


qi 


«/plugin» 
«/plugins» 
«pluginManagement- 
«plugins» 
<!-- 这 个 插件 的 配置 只 用 于 保存 Eclipse metit X, 
它 对 Maven 构 建 没 有 影响 。 --- 
«plugin» 


«groupId»org.eclipse.m2e«/groupId» 
«artifactId»lifecycle-mapping«/artifactId» 
«version»1.0.0«/version» 
«configuration» 
«lifecycleMappingMetadata» 
«pluginExecutions» 
«pluginExecution» 
«pluginExecutionFilter» 
«groupId»org.apache.maven.plugins«/groupId» 
«artifactId»maven-dependency-plugin«/artifactId» 
«versionRange»[2.1,)«/versionRange» 
«goals» 
«goal»copy-dependencies«c/goal» 
«/goals» 
«/pluginExecutionFilter» 
«action» 
«ignore /» 
«/action» 
«/pluginExecution» 
«/pluginExecutions» 
«/lifecycleMappingMetadata» 
«/configuration» 
«/plugin» 
«/plugins» 
«/pluginManagement-» 
«/build» 
«dependencies» 
<!-- 依赖 可 以 设置 在 这 里 --> 
</dependencies> 
</project> 


口 Hadoop 2.2.0: 试验 书 中 的 例子 一 般 需要 使 用 Apache Hadoop。 附录 详细 介绍 了 在 Windows 
平台 下 安装 单机 版 Hadoop 的 方式 。 对 于 其 他 的 操作 系统 ， 如 Linux 或 Mac， 安 装 步 又 也 类 
似 甚 至 更 简单 ， 它 们 可 以 在 如 下 地 址 找到 : http;//hadoop.apache.org/docs/r2.2.0/hadoop-project- 


dist/hadoop-common/SingleNodeSetup.html。 


本 书 读者 


这 是 一 本 为 处 于 各 个 阶段 的 读者 所 写 的 书 .Hadoop 的 新 手 可 以 用 它 来 升级 自己 在 此 技术 领域 


前 * xi 


的 技能 ; 有 经 验 的 人 可 以 增强 他 们 对 Hadoop 的 了 解 , 以 解决 工作 中 遇 到 的 具有 挑战 性 的 数据 处 理 
难题 ; 在 工作 中 使 用 Hadoop 、Pig 或 者 Hive 的 人 可 以 通过 书 中 的 建议 提高 他 们 作业 运行 的 速度 和 
效率 ; 喜欢 猎奇 的 大 数据 专业 人 士 可 以 通过 本 书 了 解 Hadoop 的 扩展 领域 , 掌握 它 是 如 何 通过 融合 
其 他 应 用 模式 来 扩张 自己 的 领地 的 ， 而 不 是 仅 限 于 MapReduce; 最 后 ，Hadoop 1.X 的 用 户 可 以 深 
入 了 解 升级 2.X 后 有 哪些 不 同 凡 响 之 处 。 阅 读本 书 之 前 ， 和 希望 读者 对 Hadoop 有 一 定 的 了 解 ， 但 不 
需要 你 是 这 方面 的 专家 。 建 议 你 在 公司 、 云 平台 或 者 自己 的 台式 机 /笔记 本 上 尝试 安装 Hadoop， 
以 了 解 一 些 基本 的 概念 。 


排版 约定 


阅读 本 书 时 你 会 发 现 不 同类 别 的 信息 使 用 了 不 同 的 文本 样式 ， 下 面 举例 说 明 其 中 一 些 样式 ， 
及 其 表示 的 含义 。 


文本 中 的 代码 是 这 样 表示 的 :“FileInputFormat 的 子 类 与 相关 联 的 类 一 般 作 为 Hadoop 作 
业 的 输入 。” 


代码 块 的 表示 方法 如 下 : 


return new CombineFileRecordReader«LongWritable, 
Text»((CombineFileSplit) inputSplit, taskAttemptContext, 
MasteringHadoopCombineFileRecordReader.class); 

} 
A、 人 4 一 大 人 A — ey 
命令 行 输入 和 输出 的 表示 方法 如 下 : 


14/04/10 07:50:03 INFO input.FileInputFormat: Total input paths to process : 441 


新 术语 和 重要 的 关键 字 用 楷体 表示 。 


[ CON 这 个 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 ] 
M 
Q 这 个 图 标 表示 提示 或 者 诀窍。 

读者 反馈 


我 们 非常 欢迎 读者 的 反馈 。 告 诉 我 们 你 觉得 这 本 书 怎 么 样 ， 以 及 你 喜欢 哪 部 分 或 不 喜欢 哪 部 
分 。 有 了 读 考 的 反馈 ， 我 们 才能 继续 写 出 真正 能 让 大 家 充分 受益 的 作品 。 


如 果 你 想 反馈 信息 , 很 简单 , 发送 电子 邮件 至 feedback@packtpub.com, 并 请 在 邮件 的 主题 中 
注 明 书 名 。 
如 果 你 也 是 某 个 领域 的 专家 , 并 且 有 兴趣 编写 或 者 合作 出 版 一 本 书 , 请 参见 我 们 的 作者 指南 : 


www.packtpub.com/authors o 


客户 支持 
很 高 兴 你 能 成 为 本 书 的 读者 ， 而 我 们 也 会 提供 很 多 东西 让 你 倍 感 物 有 所 值 。 


下 载 示例 代码 


凡是 通过 http://www.packtpub.com 网 站 账户 购买 的 Packt 书 籍 ， 书 中 的 示例 代码 都 可 以 从 网 站 
上 下 载 。 如 果 你 是 从 其 他 地 方 购买 了 本 书 ， 也 可 以 访问 http:/www.packtpub.com/support 并 注册 ， 
我 们 会 将 示例 代码 通过 邮件 发 送 给 你 。 


你 也 可 以 从 我 们 的 GitHub 上 获取 到 最 新 的 示例 代码 :https://github.com/karanth/MasteringHadoop。 


勘误 表 

虽然 我 们 会 全 力 确 保 书 中 内 容 的 准确 性 , 但 错误 仍 在 所 难免 。 如果 你 在 某 本 书 中 发 现 了 错误 
(文字 错误 或 代码 错误 )， 而 且 愿 意向 我 们 提交 这 些 错误 , 我们 感激 不 尽 。 这 样 不 仅 可 以 消除 其 他 
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Hadoop 2.X 


“没有 什么 是 不 能 通过 搜索 引擎 或 互联 网 找到 的 。 
一 一 埃 里 克 “' 施 密 特 ， 谷 歌 执 行 主席 


在 大 规模 、 高 并 行 和 分 布 式 计算 处 理 这 个 行业 中 , Hadoop 实 际 上 是 大 家 所 使 用 的 一 种 开源 框 
架 标 准 。 它 为 并 行 和 分 布 式 处 理 提 供 了 一 个 计算 层 , 与 这 个 计算 层 紧 密 联系 的 是 一 个 高 度 容 错 的 
存储 层 Hadoop 分 布 式 文件 系统 ( Hadoop Distributed File System, HDFS )， 而 且 它 们 都 运行 在 
低 价 、 常 见 和 相互 兼容 的 普通 硬件 上 。 


本 章 我 们 将 回顾 Hadoop 的 发 展 历程 ， 并 着 重 介绍 其 准 企业 级 特性 。 经 过 6 年 的 发 展 和 部 署 ， 
Hadoop 已 经 从 一 个 只 支持 MapReduce 模 式 的 框架 转变 成 更 通用 的 集群 计算 框架 。 本 章 主要 涵盖 如 
下 内 容 : 


O 概括 Hadoop 代 码 的 演进 过 程 ， 以 及 主要 的 里 程 碑 

O 介绍 Hadoop 从 1.X 版 本 发 展 到 2.X 版 本 所 经 历 的 变化 ， 以 及 其 如 何 演进 为 一 个 通用 集群 计 
算 框架 

口 介绍 企业 级 Hadoop 的 可 选项 及 其 评估 参数 

口 概述 一 些 流行 的 准 企业 级 Hadoop 发 行 版 本 


1.1 Hadoop 的 起 源 

互联 网 的 诞生 和 发 展 孕 育 了 万 维 网 (WWW ), 它 将 大 量 使 用 标记 语言 (HTML ) 编写 的 文档 
用 一 个 超 链接 连接 在 一 起 。 它 的 客户 端 ， 也 就 是 浏览 器 ， 成 为 了 用 户 通 往 万 维 网 的 窗口 。 由 于 万 
维 网 上 的 文档 易于 创建 、 编 辑 和 发 布 ， 于 是 海量 的 文档 出 现在 了 万 维 网 中 。 

在 20 世 纪 90 年 代 后 半 段 , 万维网 中 海量 的 数据 导致 了 查找 的 问题 。 用 户 发 现在 有 信息 需求 的 
时 候 , 很 难 发 现 和 定位 正确 的 文档 , 于 是 众多 互联 网 公司 在 万 维 网 的 搜索 领域 掀起 了 一 股 淘金 浪 
潮 ， 诸 如 Lycos 、Altavista、Yahoo! 和 Ask Jeeves 这 样 的 搜索 引擎 或 者 目录 服务 变 得 司空 见 惯 。 


搜索 引擎 开始 摄取 和 汇总 网 页 信息 ,而 遍历 网 络 、 摄 取 文 档 的 程序 则 被 称 为 外 下 。 已 经 开发 
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出 来 的 优秀 爬虫 可 以 快速 下 载 文档 ， 能 避免 链接 成 环 路 ， 并 且 可 以 检测 文档 的 更 新 。 


在 本 世纪 初期 ,谷歌 的 出 现 引领 了 搜索 技术 的 发 展 。 它 的 成 功 不 仅 是 因为 引入 了 强健 的 、 反 
垃圾 邮件 的 技术 ， 还 得 益 于 它 简洁 的 方法 和 快速 的 数据 处 理 。 对 于 前 者 ， 它 创造 了 像 PageRank 
这 样 新 颖 的 概念 ， 而 对 于 后 者 ,， 则 在 大 规模 并 行 、 分 布 式 的 数据 分 析 中 , 独具匠心 地 结合 和 应 用 
了 已 有 的 技术 ， 如 MapReduce。 


PageRank 有 是 一 个 以 谷歌 创始 人 Larry Page 的 名 字 命 名 的 算法 ， 它 是 为 用 户 的 
网 页 搜索 结果 排序 的 算法 之 一 。 搜 索引 擎 使 用 关键 字 匹配 网 站 ,以 此 来 判断 它 与 
搜索 查询 间 的 相关 度 。 受 此 启发 ,垃圾 虫 们 就 会 在 网 站 上 加 入 许多 相关 或 不 相关 
的 关键 词 ， 从 而 欺骗 搜索 引擎 使 它们 出 现在 几乎 所 有 的 查询 结果 中 。 例如 , 一 个 
> 汽车 销售 商 却 包含 了 关于 购物 和 电影 的 关键 字 , 这 样 他 所 对 应 的 搜索 查询 范围 就 
更 广 了 。 而 用 户 则 饱 受 这 些 无 用 信息 的 困扰 。 

PageRank 通 过 分 析 指 向 茶 一 特定 页 面 的 链接 的 质量 和 数量 ， 阻 碍 了 这 种 欺 

骗 行 为 ， 它 的 出 发 点 是 重要 的 页 面 会 有 更 多 的 入 站 链接 。 


大 约 在 2004 年 ， 谷 歌 向 世人 公开 了 它 的 MapReduce 技 术 实现 ， 这 项 技术 引入 了 与 MapReduce 
引擎 配合 使 用 的 GFS (Google File System， 和 谷歌 文件 系统 )。 从 此 ， 其 他 许多 公司 在 并 行 和 分 布 
式 处 理 大 数据 时 ， 都 最 喜欢 使 用 MapReduce 模 式 。Hadoop 是 MapReduce 框 架 的 一 个 开源 实现 ， 
Hadoop 和 相关 的 HDFS， 分 别 是 受到 了 谷歌 的 MapReduce 和 GFS 启 发 。 


自从 诞生 以 来 ，Hadoop 和 其 他 基于 MapReduce 的 系统 在 各 个 领域 执行 着 各 种 不 同 负载 的 任 
务 ， 而 网 页 搜索 是 其 中 一 项 。 举 个 例子 ，http:/www.last,fm/ 广 泛 使 用 Hadoop 来 产生 图 表 和 跟踪 利 
用 率 的 统计 数据 ; Hadoop 也 被 云 服 务 提 供 商 Rackspace 用 来 做 日 志 处 理 ; 雅虎 (Yahool ) 是 Hadoop 
最 大 的 支持 者 之 一 , 它 不 仅 使 用 Hadoop 集 群 创建 网 页 索引 , 而 且 还 用 其 执行 复杂 的 广告 植 人 和 内 
容 优 化 算法 。 


1.2 Hadoop 的 演进 


大 概 在 2003 年 ，Doug Cutting 和 Mike Cafarella 开 始 从 事 一 个 叫 Nutch 的 项 目 , 这 是 一 个 具有 高 
可 扩展 性 、 特 性 丰富 的 开源 仆 虫 和 索引 构建 项 目 , 目的 是 提供 一 个 现成 的 仆 虫 框架 去 满足 文档 搜 
索 的 需求 。Nutch 能 在 多 台 机 器 组 成 的 分 布 式 集群 上 工作 ， 并 且 遵 守 网 页 服务 器 上 robots.txt 文 件 
中 定义 的 协议 。 它 之 所 以 具有 高 扩展 性 是 因为 提供 了 一 个 插件 框架 , 程序 员 能 添加 自 定义 的 组 件 
在 上 面 运行 ， 例如， 一 个 可 以 从 互联 网 读 取 不 同类 型 媒体 的 第 三 方 插件 。 
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机 器 人 排除 标准 (Robot Exclusion Standard )， 即 robots.txt 协 议 ， 是 一 个 建议 

IS JR& 3k e fep AK A R BAEN, "6 E — A MC) PU A RRA RT XT, 用 

一 来 建议 爬虫 应 该 或 者 不 应 该 抓 取 某 个 公共 网 页 或 者 目录 。 作 为 一 个 有 礼貌 的 爬 
器 ， 其 中 一 个 特征 就 是 遵守 放置 在 robots.txt 文 件 内 的 建议 。 


Nutch 搭 配 其 他 诸如 Lucene 和 Solr 这 样 的 索引 技术 , 为 构建 搜索 引擎 提供 了 必要 的 组 件 , 但 还 
不 能 满足 互联 网 级 别 规模 的 需要 。 早 期 的 Nutch 曾 演示 过 使 用 4 台 机 器 处 理 1 亿 个 网 页 ， 不 过 调试 
和 维护 工作 很 繁琐 。2004 年 , 谷歌 发 布 的 颇具 影响 力 的 MapReduce 和 GFS 概 念 解 决 了 Nutch 遇 到 的 
一 些 扩展 性 问题 。Nutch 的 贡献 者 开始 将 分 布 式 文件 系统 和 MapReduce 编 程 模型 集成 到 这 个 项 目 
中 。 到 2006 年 ，Nutch 的 扩展 性 虽然 提升 了 ,但 是 也 没 能 达到 互联 网 级 别 。 它 使 用 20 台 机 咽 可 以 
抓 取 和 构建 几 亿 的 网 页 文档 的 索引 。 同 时 ， 编程、 调试 和 维护 搜索 引擎 的 工作 变 得 容易 一 些 了 。 


2006 年 ， 雅 虎将 Doug Cutting AZE F, Hadoopil£/E f ! Hadoop 项 目 是 受 Apache 软 件 基金 会 
( Apache Software Foundation, ASF ) 支持 的 ， 不 过 它 是 从 Nutch 项 目 中 分 离 出 来 的 ， 并 可 以 独立 
发 展 。2006 到 2008 年 间 ，Hadoop 发 行 了 大 量 的 小 版 本 ,最终 成 长 为 一 个 稳定 的 、 互 联网 级 别 的 、 
基于 MapReduce 原 理 的 数据 人 处理 框架 。2008 年 ，Hadoop 在 太 字 节 (terabyte ) 级 别 数据 的 排序 性 
能 标杆 竞赛 中 获胜 ， 正 式 宣 告 它 成 为 了 一 个 基于 MapReduce、 适 用 于 大 规模 的 、 可 靠 的 集群 计算 
框架 。 


Hadoop 家 族 


从 2007 年 和 2008 年 发 布 的 早期 版 本 算 起 ，Hadoop 项 目的 族谱 可 不 短 。 由 于 它 归 属于 Apache 
软件 基金 会 , 所 以 在 本 书 中 统称 为 Apache Hadoop。Apache Hadoop 项 目 是 后 续 发 行 的 Hadoop 版 本 
的 父 项 目 ， 就 像 一 条 河流 的 分 布 一 样 ， 这 个 父 项 目 相 当 于 河流 的 干流 ， 而 它 的 分 支 或 者 说 发 布 版 
本 就 像 是 支流 。 

参照 Apache Hadoop 的 发 展 历程 ， 下 页 图 显示 了 Hadoop 的 血缘 关系 。 在 图 中 ， 黑 色 实 线 方 框 
显示 了 Apache Hadoop 的 主 发 行 版 本 ， 椭 圆 实 线 框 则 对 应 Hadoop 的 分 文 版 本 ， 而 黑色 虚线 方 框 代 
表 其 他 的 Hadoop 发 行 版 本 。 

Apache Hadoop 有 三 个 关系 非常 密切 的 重要 分 支 ， 它 们 是 : 


口 0.20.1 分 支 
口 0.20.2 分 支 
口 0.21 分 支 


在 0.20 版 本 之 前 ，Apache Hadoop 一 直 是 沿 着 一 条 主线 发 行 版 本 的 ， 并 且 每 次 总 是 一 个 单独 
的 主 版 本 ,没有 创建 分 支 版 本 。 在 发 行 0.20 版 本 的 时 候 ， 这 个 项 目 分 裂 成 了 三 个 主要 的 分 支 , 其 
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rP 0.20.2 4 3c S PR J MapReduce 1.0 版 本 、MRv1 或 者 简称 为 Hadoop 1.0.0; 0.21 分 支 被 称 为 


MapReduce 2.0 版 本 、MRv2 或 者 简称 为 Hadoop 2.0 


其 


32A 


他 一 些 | 


日 一 点 的 发 行 版 本 派生 于 0.20.1 版 本 。 


2011 年 ， 各 个 不 同 分 支 发 行 的 版 本 数量 创下 了 最 


高 纪录 。 


Hadoop 


水 更 老 的 版 本 
Hadoop 
0.19 


Hadoop 
0.20.203 


Hadoop 

0.20.205 

Hadoop |J 
1.0.0 y 


B 4 Hadoop D 
0.21 
Hadoop 
0.22 
Hadoop 
23 
CDH4 
Hadoop f 
2.0.2-alpha Pivotal HD 
Y 
Hadoop Hadoop 
2.1.0-beta 22.0 


Hadoo; 
23.0. 


另外 有 两 个 发 行 版 本 虽然 不 


属于 主 发 行 版 本 ， 但 


也 非常 重要 ， 那 就 是 : Hadoop-0.20-append 


和 Hadoop-0.20-security。 这 两 个 发 行 版 本 分 别 引 入 了 HDFS 文 件 追 加 和 安全 相关 的 特性 。 随 着 这 


些 增强 特性 的 加 入 ，Apache Hadoop 渐 渐 被 企业 月 


有 户 所 接受 。 


1. Hadoop-0.20-append 


文件 追加 (append ) 特性 是 Hadoop-0.20-append 版 本 的 主要 特性 ， 它 让 月 
了 担心 数据 丢失 的 风险 。 在 HDFS 上 运行 的 HBase 是 一 种 被 广泛 使 用 的 列 存储 应 用 ， 可 以 在 


TAS 
面向 批 处 理 的 Hadoop 平 台 上 提 


HE 


[^N 


在 线 存储 功能 。 


日 户 在 执行 HBase 的 时 


具体 来 说 , 文件 追加 特性 使 得 HBase 的 日 志 能 够 


持久 存储 ， 确 保 了 数据 的 安全 。 传 统 的 HDFS 为 MapReduce 批 处 理 作业 提供 文件 的 写 入 和 输出 功 


能 。 在 完成 这 些 作业 时 , 一 次 只 能 打开 一 个 文件 
闭 的 文件 可 以 被 读 取 很 多 次 ,但 是 不 能 


任何 程 


了 被 修改 。 语 义 上 提供 的 是 一 种 
( write-once-read-many-times ) 的 模式 ， 且 当 文 件 被 写 入 时 , 没有 人 


序 在 写 HDFS 文 件 的 过 程 中 ， 当 写 操作 失败 或 者 程序 崩 演 时， 都 必须 重 写 这 个 文件 的 


， 将 很 多 数据 写 和 其中， 然后 再 关闭 文件 。 被 关 
次 写 和 人 多 次 读 取 
取 文件 的 内 容 。 


能 读 


全 部 内 容 。 在 MapReduce 中 ， 用 户 总 是 重新 执行 任务 来 产生 新 的 文件 ， 但 是 在 像 HBase 这 样 的 在 
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线 系 统 中 却 不 是 这 样 的 。 如 果 日 志文 件 写 失 败 ， 事 务 (transaction) 操作 就 不 能 再 被 执行 ， 从 而 CEN 
导致 数据 的 丢失 。 如 果 能 够 根据 日 志 内 容重 新 执行 事务 操作 , PERDU IA. 文件 追加 功能 
使 HBase 和 其 他 需要 事务 操作 的 应 用 能 够 在 HDFS 上 执行 ， 从 而 降低 了 这 一 风险 。 


2. Hadoop-0.20-security 


雅虎 的 Hadoop 团 队 在 Hadoop-0.20-security 版 本 中 主动 承担 了 添加 安全 特性 的 工作 。 企业 内 的 
队 各 种 各 样 ， 并 且 他 们 处 理 的 数据 类 型 也 各 不 相同 。 为 了 遵守 法 规 、 保 护 客户 隐私 和 保障 数据 
安全 , 进行 数据 隔离 、 数 据 认 证 以 及 Hadoop 作 业 和 数据 的 授权 是 非常 重要 的 。 这 个 安全 相关 的 版 
本 的 发 布 包含 了 丰富 的 特性 以 支持 上 述 三 方面 的 企业 安全 需求 。 


这 个 版 本 将 Kerberos 认 证 系统 完整 集成 到 Hadoop 中 。 访 问 控制 列表 (Access Control Lists, 
ACL ) 的 引入 确保 了 作业 的 运行 和 数据 的 访问 得 到 恰当 的 授权 。 认 证 与 授权 为 系统 中 属于 不 同 用 
户 的 作业 和 数据 提供 了 必要 的 隔离 性 。 


3. Hadoop 年 鉴 


下 图 展示 了 Apache Hadoop 的 主要 发 行 版 本 和 里 程 碑 。 虽 然 该 项 目 已 经 持续 了 8 年 , 但 是 直到 
最 后 的 4 年 ，Hadoop 才 在 大 数据 处 理 领域 发 挥 了 巨大 影响 力 。2010 年 1 月 ,谷歌 获得 了 MapReduce 
技术 的 专利 ， 但 是 4 个 月 后 这 项 技术 专利 就 授权 给 了 Apache 软 件 基金 会 ， 这 为 Hadoop 打 了 一 针 强 
心 剂 。 摆 脱 了 法 律 纠纷 的 烦 扰 ， 各 家 企业 ， 不 论 规 模 大 小 ， 都 张开双 臂 准备 迎接 Hadoop。 至 此 ， 
Hadoop 也 经 历 了 一 些 重大 改进 ， 并 发 布 了 相关 版 本 。 这 也 为 Hadoop 的 分 销 、 支 持 、 培 训 以 及 相 
关 业 务 带 来 了 商机 。 


2004 年 谷歌 发 


表 MapReduce ”2006 年 Hadoop ”2008 年 11 月 2009 年 9 月 2010 年 8 月 2011 年 12 月 201348) 
和 GFS 论 文 项 目 诞生 Hadoop 0.19 Hadoop 0.20.1 Hadoop 0.21 Hadoop 1.0.0 Hadoop 1.2.1 
2010 年 4 月 谷 
歌 将 专利 授 
权 给 Apache 


软件 基金 会 


2004—20064ENutch 
于 MapReduce 和 GFS 
概念 进行 扩 质 
年 : 2008 年 Hadoop 赢 
得 TB 级 别 的 数据 
排序 标杆 竞赛 

2009 年 4 月 ”2010 年 2 月 2011 年 9 月 2012 年 10 月 2013 年 10 月 

Hadoop 0.20.0 Hadoop 0.20.2 Hadoop Hadoop Hadoop-2.2.0 
0.20.203  0.20.2-alpha 


eT 
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Hadoop 1.0 系 列 版 本 在 本 书 中 统称 为 1.X 版 本 ， 它 经 历 了 Hadoop 作 为 一 个 纯粹 的 MapReduce 
作业 处 理 框 架 从 诞生 到 演进 的 全 过 程 , 它 广泛 采用 了 大 数据 处 理工 具 , 发 挥 的 作用 远 远 超出 了 人 
们 的 预期 。 这 个 时 期 ，Hadoop 1.X 发 行 版 的 稳定 版 本 是 1.2.1， 它 包括 了 文件 追加 和 安全 等 特性 。 
Hadoop 1.X 试 图 通过 不 断 的 改变 来 保持 其 灵活 性 , 例如 HDFS 文 件 追 加 功能 , 以 文 持 HBase 这 样 的 
在 线 系统 。 然 而 ， 尽 管 Hadoop 1.X 的 灵活 性 得 到 了 扩展 ,但 是 原 有 的 MapReduce 计 算 模 型 却 不 能 
支持 所 有 大 数据 应 用 涉及 的 领域 ， 除 非 在 它 的 架构 上 做 出 改变 。 


Hadoop 2.0 系 列 版 本 在 本 书 中 统称 为 2.X 版 本 。 自 2013 年 问世 以 来 , 这 一 系列 的 版 本 也 经 历 了 
重大 改进 ， 拓 展 了 Hadoop 可 以 处 理 的 应 用 范围 。 这 个 系列 还 针对 企业 内 现 有 的 Hadoop 集 群 提 升 
了 效率 , 并 扩大 了 优势 。 显 然 , Hadoop 正 在 快速 赶 超 MapReduce, 由 于 它 还 具有 向 后 兼容 的 优势 ， 
因此 在 大 数据 领域 保持 着 遥遥 领先 的 地 位 。 它 正在 从 一 个 仅 针对 MapReduce 的 框架 成 长 为 一 种 通 
用 的 集群 计算 和 存储 平台 。 


1.3 Hadoop 2.X 
Hadoop 1.X 在 一 些 组 织 机 构 内 大 受 欢迎 ， 也 让 人 们 认识 到 了 它 的 局 限 性 。 


口 Hadoop 对 集群 计算 资源 赋予 了 史无前例 的 准 入 方式 , 组 织 机 构 内 的 每 一 个 人 都 有 权 访 问 。 
并 且 由 于 MapReduce 编 程 模型 比较 简单 ， 且 支持 “一 次 开发 ， 任 意 部 署 ”( develop once 
deploy at any scale ) 的 模式 ， 因 此 ， 用 户 将 一 些 不 怎么 适合 MapReduce 实 现 的 数据 处 理 作 
业 也 部 署 到 了 Hadoop 上 ， 例 如 ， 网 页 服务 端 应 用 被 部 署 到 一 个 长 时 间 运 行 的 map 作 业 中 。 
众所周知 ，MapReduce 难 以 承担 迭代 类 型 的 算法 运算 ,但 是 一 些 黑 客 通过 改造 使 Hadoop 
能 执行 迭代 算法 ， 这 使 得 集群 的 资源 利用 和 容量 规划 面临 众多 挑战 。 

口 Hadoop 1.X 采 用 集中 式 作业 流 控制 ， 然 而 集中 式 系统 由 于 其 负载 的 单 点 问题 ， 很 难 实 现 
扩展 。 一旦 JobTracker ( 作业 跟踪 器 ) 出 现 故 障 ， 系 统 中 所 有 的 作业 都 必须 重新 启动 ， 这 
对 整个 集中 式 组 件 造成 了 极 大 压力 。 按 照 这 种 模式 ，Hadoop 很 难 与 其 他 类 型 的 集群 进行 
集成 。 

a 早期 发 行 的 Hadoop 1.X 版 本 将 所 有 HDFS 目 录 和 文件 的 元 数据 存储 到 一 个 NameNode 单 点 。 
整个 集群 的 数据 状态 取决 于 这 个 单 点 的 成 败 。 随 后 的 版 本 添加 了 一 个 作为 冷 备 的 从 
NameNode ( secondary NameNode ) 节点 。 从 NameNode 节 点 周期 性 地 将 写 日 志 (editlog) 和 
NameNode 的 映 象 文件 (image file) 合并 ， 这 样 做 有 两 个 优点 : 首先 ， 由 于 主 NameNode 节 
点 在 启动 的 时 候 不 需要 完全 合并 写 日 志和 映 象 文件 , 因此 主 NameNode 节 点 的 启动 时 间 缩 短 
T; 其 次 ， 从 NameNode 节 点 复制 NameNode 的 所 有 信息 ,这 样 当 NameNode 节 点 出 现 不 可 恢 
复 的 故障 时 ， 数 据 丢 失 会 降 到 最 低 。 但 是 ， 从 NameNode ( 它 并 不 是 NameNode 的 一 个 实时 
备份 ) 并 不 是 一 个 热 备 份 节点 ， 这 意味 着 故障 切换 时 间 和 恢复 时 间 较 长 ， 且 集群 可 用 性 会 
受到 影响 。 


O Hadoop 1.X 主 要 是 一 个 基于 Unix 系 统 的 大 数据 处 理 框架 ， 想 要 直接 在 微软 的 Windows 


1.3 Hadoop2.X 7 


Server 操 作 系统 上 执行 是 不 可 能 的 。 随 着 微软 大 举 进 入 云 计 算 和 大 数据 分 析 领 域 ， 再 加 上 
业界 已 经 在 Windows Server 上 有 了 大 量 投入 ，Hadoop 也 应 该 支持 微软 Windows 系 统 的 功 
能 ， 这 一 点 非常 重要 。 

口 Hadoop 的 成 功 主 要 得 益 于 企业 的 参与 ， 而 它 被 采用 则 是 由 于 有 现成 的 、 企 业 需要 的 特性 。 
尽管 Hadoop 1.X 尝 试 支持 其 中 的 一 些 企业 特性 ( 例如 安全 )， 但 是 还 是 有 其 他 的 企业 需求 
吸 待 解决 。 


1.3.1 Yet Another Resource Negotiator (YARN) 


在 Hadoop 1.X 中 ， 资 源 的 分 配 和 任务 的 执行 是 由 JobTracker 完 成 的 。 由 于 计算 模型 是 和 集群 
的 资源 紧密 联系 的 ， 所 以 只 能 支持 MapReduce 一 种 计算 模型 。 这 种 紧密 的 耦合 导致 开发 者 强行 适 
配 其 他 的 计算 模型 ， 从 而 出 现 了 与 MapReduce 设 计 意 图 相悖 的 使 用 方式 。 


YARN 的 主要 设计 目标 是 将 大 家 比较 关注 的 资源 管理 ( resource management ) 和 应 用 执行 
(application execution ) 之 间 的 耦合 隔离 ， 然 后 其 他 的 应 用 模式 就 可 以 在 Hadoop 集 群 上 执行 了 。 
增强 不 同 计算 模型 和 各 种 应 用 之 间 的 交互 , 使 得 集群 的 资源 得 到 高 效 的 利用 , 同时 也 能 更 好 地 与 
企业 中 已 经 存在 的 计算 结构 集成 在 一 起 。 


然而 ， 为 了 达到 资源 管理 和 作业 管理 的 低 耦 合 性 ， 也 不 能 牺牲 了 向 后 兼容 性 。 在 过 去 的 6 年 
里 ，Hadoop 已 经 引领 了 大 数据 并 行 与 分 布 式 处 理 领域 的 潮流 ,这 意味 着 大 量 的 开发 、 测 试 和 部 署 
已 经 投入 到 位 了 。 


YARN 能 够 保持 与 Hadoop 1.X ( Hadoop-0.20.205+ ) 版 本 API 的 向 后 兼容 性 。 一 份 老 版 本 的 
MapReduce 程 序 不 做 任何 代码 修改 就 能 继续 在 YARN 上 执行 。 当 然 ， 重 新 编译 是 必需 的 。 


架构 概述 


下 页 图 展示 了 YARN 的 架构 。YARN 将 资源 管理 的 功能 抽象 成 一 个 叫 资源 管理 器 ( Resource- 
Manager, RM ) 的 组 件 。 每 个 集群 都 有 一 个 RM， 它 主要 用 来 跟踪 资源 的 使 用 情况 ， 同 时 也 负责 
资源 的 分 配 和 解决 集群 中 的 资源 竞争 问题 。RM 使 用 通用 的 资源 模型 ， 而 且 不 感知 资源 的 具体 情 
况 以 及 应 用 使 用 资源 做 什么 。 例 如 ，RM 不 需要 知道 资源 对 应 一 个 Map 还 是 一 个 Reduce。 


Application Master ( AM ) 负责 一 个 作业 的 调度 和 执行 工作 ， 而 且 每 个 应 用 有 一 个 单独 的 AM 
实例 ( 例如 ， 每 个 MapReduce 作 业 都 有 一 个 AM )。AM 向 RM 请 求 资 源 ， 然 后 使 用 资源 执行 作业 ， 
并 处 理 作 业 执 行 中 可 能 出 现 的 错误 。 


一 般 情 况 下 在 集群 中 指定 一 台 机 器 以 守护 进程 (daemon ) 的 方式 运行 RM，RM 维 护 着 整个 
集群 的 全 局 状态 和 资源 分 配 情况 。 由 于 拥有 全 局 的 信息 ，RM 可 以 根据 集群 的 资源 使 用 率 做 出 公 
平 的 资源 配置 。 当 收 到 资源 请 求 时 ，RM 动 态 地 分 配 一 个 容器 (container ) 给 请 求 方 。 容 器 是 一 
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个 与 节点 绑 定 的 资源 抽象 概念 ， 例 如 ， 一 个 节点 上 的 2 个 CPU 和 4 GB 内 存 可 以 作为 一 个 容器 。 
Pig Hive 其 他 
a MapReduce Pig Hive 
MapReduce 
资源 管理 + 作业 处 理 YARN 
(资源 管理 ) 


Streaming， 
Graph 


HDFS HDFS 
(存储 ) (存储 ) 
Hadoop 1.X Hadoop 2.X 


节点 管理 器 (NodeManager，NM ) 是 集群 中 每 个 节点 上 执行 的 一 个 后 台 进程 ， 它 协助 RM 做 
节点 的 本 地 资源 管理 工作 。NM 承 担 容 器 的 管理 功能 ， 例 如 启动 和 释放 容器 ， 跟 踪 本 地 资源 的 使 
用 ， 以 及 错误 通知 工作 。NM 发 送 心跳 信息 给 RM， 而 RM 通过 汇总 所 有 的 NM 的 心跳 信息 从 而 了 
解 整个 系统 的 状态 。 


作业 (job ) 是 直接 向 RM 提交 的 ，RM 基 于 集群 的 资源 可 用 情况 调度 作业 执行 。 作 业 的 基本 
信息 保存 在 可 靠 的 存储 系统 中 ， 这 样 当 RM 骨 省 后 很 容易 恢复 作业 重新 执行 。 在 一 个 作业 被 调度 
执行 后 ，RM 在 集群 的 某 个 节点 上 分 配 一 个 容 需 给 该 作业 ， 作 为 这 个 作业 的 AM。 

然后 ，AM 就 接管 了 这 个 作业 的 后 续 处 理 ， 包 括 请 求 资源 、 管 理 任务 执行 、 优 化 和 处 理 任务 
的 异常 。AM 可 以 用 任何 语言 编写 ， 并且 不 同 版 本 的 AM 可 以 独立 地 运行 在 同一 个 集群 里 面 。 

AM 请 求 的 资源 明确 了 本 地 化 信息 和 期 望 的 资源 类 型 ,RM 会 基于 资源 分 配 策略 和 当前 可 用 资 
源 的 情况 尽力 满足 AM 的 要 求 。 当 AM 获取 到 一 个 容器 时 ， 它 能 在 容器 内 执行 自己 的 应 用 程序 ， 
并 且 可 以 自由 地 和 这 个 容器 通信 ， 而 RM 并 不 知道 这 些 通信 的 存在 。 


1.3.2 ”存储 层 的 增强 


Hadoop 2.X 发 行 版 中 做 了 大 量 的 存储 层 的 增强 , 它们 的 主要 目的 就 是 为 Hadoop 在 企业 中 的 使 
用 铺 平 道路 。 


NameNode 其 实 是 Hadoop 的 一 个 目录 服务 ,， 它 包含 着 整个 集群 存储 的 文件 的 元 数据 。Hadoop 
1.X 有 一 个 从 NameNode 作 为 冷 备 节点 ， 它 滞后 主 NameNode 节 点 几 分 钟 。 而 Hadoop 2.X 则 具备 
NameNode 的 热 备 节点 。 当 主 NameNode 节 点 故障 了 ， 从 NameNode 就 能 够 在 几 分 钟 内 转变 成 主 
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NameNode。 如 果 有 热 备份 节点 ， 就 能 够 提供 无 数据 丢失 且 不 间断 的 NameNode 服 务 ,， 并 且 自 动 故 
障 切 换 也 比较 容易 实现 。 


热 备份 的 关键 在 于 维护 它 的 数据 尽 可 能 与 主 NameNode 节 点 保持 一 致 ， 可 以 通过 读 取 主 
NameNode 的 写 日 志文 件 并 在 备份 节点 上 执行 来 实现 ， 并 且 延 时 也 是 非常 低 的 。 写 日 志文 件 的 共 
享 可 以 使 用 以 下 两 种 方法 来 实现 。 


O 在 主 NameNode 和 从 NameNode 节 点 间 使 用 共享 的 网 络 文件 系统 (Network File System, 
NFS ) 存储 目录 : 主 NameNode 往 共享 目录 中 写 和 日志， 而 从 NameNode 监 听 这 个 共享 目 
录 的 变更 消息 ， 然 后 拉 取 这 些 变更 。 

口 使 用 一 组 JournalNode ( quorum of Journal Nodes ): 主 NameNode 将 写 日 志 发 送 到 部 分 
JournalNode 以 记录 信息 ， 而 从 NameNode 持 续 监 听 这 些 JournalNode， 从 而 更 新 和 同步 主 
NameNode 的 状态 。 


下 图 展示 了 一 种 使 用 基于 有 效 配额 的 存储 系统 的 高 可 用 实现 框架 。 DateNode 需 要 同时 发 送 数 
据 块 报告 信息 (block report ) 到 主 从 两 个 NameNode。 


^ Zookeeper| | Zookeeper| | Zookeeper w 
Zookeeper Zookeeper 
故障 切换 控制 器 故障 切换 控制 器 
NameNode Journal Journal Journal NameNode 


NS 人 


DataNode DataNode DataNode 


ZooKeeper 等 高 可 用 的 监听 服务 可 以 用 来 跟踪 NameNode 的 故障 , 并 且 可 以 触发 故障 切换 的 流 
程 ， 使 从 NameNode 节 点 提升 为 主 节 点 。 


2. HDFS 联 合 


类 似 于 YARN 对 计算 层 的 改进 措施 ， 在 Hadoop 2.X 中 也 实现 了 一 个 更 为 通用 的 存储 模型 。 一 
个 通用 的 块 存储 (block storage) 层 已 经 从 文件 系统 层 隔 离 出 来 。 这 种 隔离 使 得 其 他 存储 服务 有 
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机 会 被 集成 到 Hadoop 集 群 中 。 在 此 之 前 ，HDFS 和 块 管理 层 紧 紧 地 耦合 在 一 起 ， 难 以 集成 其 他 的 
存储 服务 。 


这 种 通用 存储 模型 使 得 HDFS 联 合 ( HDFS Federation ) 功 能 得 以 实现 。 这 个 功能 允许 多 个 HDFS 
命名 空间 使 用 相同 的 底层 存储 设备 ， 且 联合 的 NameNode 节 点 提供 了 文件 系统 层面 的 隔离 功能 。 
在 第 10 章 中 ， 我 们 会 详细 介绍 这 个 特性 。 


3. HDFS 快 照 


快照 ( snapshot ) 是 文件 系统 的 整体 或 部 分 目录 在 某 个 时 间 点 的 只 读 镜像 (image ), 通常 是 
为 了 以 下 三 个 原因 : 


O 防止 用 户 的 错误 操作 导致 的 数据 损坏 或 丢失 
a 备份 
D 容 灾 


快照 仅 在 NameNode 上 实现 ， 它 不 会 涉及 数据 从 一 个 数据 节点 复制 到 另 一 个 数据 节点 ， 而 仅 
仅 是 复制 了 块 列 表 以 及 文件 的 大 小 。 生 成 一 个 快照 的 操作 几乎 是 瞬间 完成 的 ， 它 不 会 影响 
NameNode 节 点 的 性 能 。 


4. 其 他 增强 功能 
在 Hadoop 2.X 中 ， 还 有 大 量 其 他 的 增强 功能 ， 如 下 所 示 。 


口 以 前 ，Hadoop 的 RPC 通 信 协 议 是 使 用 Java 的 Writables 序 列 化 实现 的 ,但 在 Hadoop 2.X 是 基 
于 Protocol Buffers "实现 的 。 这 个 改进 不 仅 很 容易 保持 向 后 兼容 ， 而 且 帮 助 集群 中 的 不 同 
组 件 实 现 了 滚动 升级 (rolling the upgrades )。 男 外 ，RPC 也 允许 在 客户 端 实 现 重 试 功能 。 

口 Hadoop 1.X 是 不 感知 存储 设备 的 类 型 的 ， 这 意味 着 机 械 硬 盘 和 SSD ( 固态 硬盘 ) 被 无 区 别 
对 待 。 用 户 无 法 对 数据 的 布局 做 任何 干预 。 2014 年 发 布 的 Hadoop 2.X 版 本 能 够 识别 存储 设 
备 的 类 型 ,并且 应 用 程序 可 以 获取 到 这 些 信息 。 这 样 ， 应 用 程序 就 可 以 通过 这 些 信息 来 
优化 它们 的 数据 存 取 和 布局 策略 。 

O Hadoop 2.X 发 行 版 文 持 HDFS 的 文件 妃 加 功能 。 

口 Hadoop 1.X 发 行 版 是 通过 HDFS 客 户 端 访 问 文件 系统 的 。Hadoop 2.XJF AI SCHENFSv3, fit 
进 了 NFS 网 关 组 件 的 诞生 。 现 在 ，HDFS 可 以 挂 载 ( mount ) 到 用 户 本 地 兼容 的 文件 系统 
上 ,他 们 可 以 直接 往 HDFS 下 载 或 上 传 文件 。 往 已 有 的 文件 追加 内 容 是 可 以 的 , 但 是 随机 
写 (random write ) 是 不 支持 的 。 

O 对 Hadoop 的 IO 进行 了 大 量 的 改进 。 例 如 ， 在 Hadoop 1.X 中 ， 当 客户 端 运 行 在 某 个 数据 节 
点 上 时 ， 它 需要 通过 TCP 来 读 取 本 地 数据 。 但 是 ， 有 了 本 地 快捷 读 取 ( short-circuit local 
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reads )， 客 户 端 就 可 以 直接 读 取 本 地 的 数据 ; 通过 特定 的 接口 还 可 以 实现 零 复 制 
(zero-copy ) 数 据 读 取 ; 读 或 写 数 据 的 CRC 校 验 码 计算 方法 也 使 用 英特尔 的 SSE 4.2 CRC 32 
指令 进行 了 优化 。 


1.3.3 ”支持 增强 


Hadoop 通 过 支持 其 他 平台 和 框架 增 广 了 它 支 持 的 应 用 的 范围 。 上 面 我 们 展示 了 通过 
YARN 文 持 其 他 的 计算 模型 , 还 有 通过 块 存储 层 支 持 其 他 存储 系统 。 此 外 还 有 如 下 其 他 方面 的 
支持 增强 。 


O Hadoop 2.X 天 然 支持 微软 的 Windows 系 统 。 这 个 转变 使 得 微软 的 Windows 服 务 器 有 极 好 的 
机 会 进入 大 数据 处 理 领域 。 当 然 ， 部 分 原因 得 归功 于 Hadoop 开 发 使 用 的 Java 编 程 语 言 有 
很 好 的 可 移植 性 ， 但 更 重要 的 原因 在 于 Hadoop 对 计算 和 存储 的 通用 性 的 增强 ， 使 其 能 
持 包 括 Windows 在 内 的 系统 。 

口 云 服务 商 将 Hadoop 作 为 一 种 按 需 分 配 的 服务 ， 作 为 其 平台 即 服务 (Platform-as-a-Service ) 
产品 的 一 部 分 。Hadoop 2.X 文 持 OpenStack， 促 进 了 在 云端 的 弹性 和 虚拟 化 部 署 。 


1.4 Hadoop 的 发 行 版 


如 今 ，Hadoop 和 其 生态 圈 中 的 各 个 组 件 都 成 为 了 一 项 项 复杂 的 工程 。 如 上 所 述 ，Hadoop 在 
不 同 的 发 行 版 本 上 有 很 多 的 代码 分 支 , 同时 也 有 好 几 种 不 同 的 发 行 方式 。 其 中 ,最 活跃 也 是 社区 
参与 度 最 高 的 ， 是 通过 Apache 软 件 基金 会 的 方式 。 这 是 一 种 免费 发 行 的 方式 , 并 且 背 后 有 强大 的 
社区 支持 。 同 时 ，Apache Hadoop 发 行 中 的 社区 贡献 影响 着 Hadoop 发 展 的 大 方向 。Apache Hadoop 
通过 在 线 论坛 的 方式 提供 支持 ， 问 题 是 提交 给 社区 ， 并 由 论坛 的 成 员 来 解答 的 。 


在 企业 内 部 部 署 和 管理 Apache Hadoop 发 行 版 本 是 很 枯燥 和 繁琐 的 。Apache Hadoop 使 用 Java 来 
开发 并 且 针对 Linux 的 文件 系统 进行 了 优化 。 这 可 能 与 企业 已 有 的 应 用 程序 和 基础 架构 不 匹配 。 另 
外 ， 当 与 Hadoop 生 态 系统 的 其 他 组 件 集成 时 ，Apache Hadoop 版 本 有 不 少 的 bug， 并 日 也 不 够 直观 。 


为 了 解决 这 样 的 问题 , 出 现 了 几 个 为 Hadoop 提 供 新 的 发 行 模式 的 公司 , 主要 有 三 种 不 同 风格 
的 发 行 方式 。 
口 第 一 种 风格 是 为 Apache Hadoop 发 行 版 提供 付费 的 商业 支持 和 培训 。 
口 第 二 种 风格 是 一 些 公司 通过 提供 一 系列 的 工具 来 部 署 和 管理 Apache Hadoop。 这 些 公 司 也 
为 Hadoop 生 态 圈 内 不 同 的 组 件 提供 健壮 的 集成 层 。 
口 第 三 种 模式 是 有 些 公司 通过 自己 私有 的 特性 和 代码 来 增强 Apache Hadoop， 这 些 特性 属于 
付费 的 增强 功能 ， 而 它们 中 的 大 部 分 是 为 了 解决 具体 的 用 户 案例 。 
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所 有 这 些 发 行 版 本 都 以 Apache 软 件 基金 会 的 Hadoop 作 为 共同 的 源头 。 这 些 版 本 的 用 户 ， 尤 
其 是 那些 使 用 第 三 种 模式 发 行 版 本 的 用 户 ， 很 可 能 会 集成 一 些 私有 代码 到 Apache Hadoop 中 。 但 
是 这 些 发 行 版 本 总 是 和 Apache Hadoop 保 持 紧 密 的 联系 并 紧 跟 它 的 趋势 ， 而 且 通 常 是 经 过 了 完善 
的 测试 ， 并 能 提供 深入 、 及 时 的 支持 ， 为 企业 减少 了 大 量 管理 成 本 。 如 果 使 用 的 并 非 是 Apache 
Hadoop 发 行 版 , 那 就 会 因为 被 束缚 于 某 个 服务 商 而 陷入 不 利 的 形势 。 一 个 服务 商 所 提供 的 工具 和 
私有 特性 往往 与 其 他 服务 商 发 布 的 版 本 或 者 其 他 第 三 方 所 提供 的 工具 不 兼容 , 从 而 产生 代码 迁移 
的 费用 ， 而 且 这 个 费用 不 仅仅 是 指 技术 上 的 ， 还 包括 机 构 的 培训 、 能 力 规划 和 架构 调整 等 。 


1.4.1 选 哪个 Hadoop 发 行 版 


自 2008 年 以 来 , 多 家 公司 都 提供 了 Hadoop 发 行 版 本 , 并 且 各 有 千秋 。 对 于 某 家 企业 或 者 机 构 ， 
到 底 该 如 何 选择 合适 的 发 行 版 ， 这 需要 具体 问题 具体 分 析 。 发 行 版 本 的 评估 标准 也 各 不 相同 ， 下 
面 将 就 重点 的 几 项 进行 分 析 。 

1. 性 能 

让 Hadoop 能 够 在 集群 上 快速 处 理 数据 当然 是 众望 所 归 的 一 项 能 力 。 通 常 , 这 一 直 都 是 所 有 性 
能 基准 参考 标准 的 重要 基础 。 这 项 特殊 的 性 能 标准 被 称 为 “和 否 吐 量 ”( throughput )。Hadoop 能 够 
处 理 各 类 分 析 工 作 , 同时 , 这 些 分 析 工 作 所 支持 的 使 用 案例 也 多 种 多 样 ， 因 此 ,“ 延 时 ”( latency ) 
也 成 为 了 一 项 重要 的 性 能 标准 。 为 了 实现 低 延 时 的 分 析 , Hadoop 就 一 定 要 能 够 快速 读 取 输入 数据 
并 且 给 出 输出 数据 ， 这 种 输入 到 输出 的 成 本 形成 了 数据 处 理 流 程 的 主要 组 成 部 分 。 


延 时 是 为 了 得 到 结果 而 需要 等 待 的 时 间 , 它 的 度量 单位 是 时 间 单 位 , 例如 毫 


秒 、 秒 、 分 钟 或 者 小 时 。 
S 吞吐 量 是 在 单位 时 间 内 能 执行 操作 的 数量 , 它 表明 在 单位 时 间 内 能 完成 的 工 
作 量 。 

无 论 哪 种 Hadoop 发 行 版 , 要 想 达 到 低 延 时 的 目的 , 都 可 以 采用 扩充 硬件 规模 的 方法 。 然 而 这 
种 方法 的 成 本 很 高 ， 而 且 很 快 就 没有 了 提升 的 空间 。 从 架构 上 说 ， 低 的 VO 延 时 可 以 采用 不 同 的 
方法 实现 。 一 种 方法 是 减少 数据 发 送 右 ( data source) 或 数据 接收 器 (data sink ) 与 Hadoop 集 群 
之 间 中 间 数 据 驻 留 层 的 数量 。 有 些 发 行 版 本 提供 了 流 (streaming ) 的 方式 写 人 Hadoop 集 群 ， 从 而 
减少 中 间 驻 留 层 数 。 在 数据 流 到 存储 系统 之 前 ,可 以 在 流 层 面 插入 一 些 用 于 过 泪 、 压 缩 以 及 轻 量 
级 别 数据 处 理 的 运算 符 ， 对 数据 进行 预 处 理 。 


Apache Hadoop 发 行 版 是 使 用 运行 在 虚拟 机 上 的 Java 语 言 编写 的 ， 尽 管 它 增加 了 应 用 程序 的 
可 移植 性 ， 但 是 系统 负载 也 随 之 升 高 ， 比 如 它 在 执行 的 时 候 由 于 转换 字 节 码 解析 (byte-code 
interpretation ) 以 及 后 台 垃 圾 回收 ( garbage collection ) 而 产生 额外 的 间接 层 。 这 样 一 来 ， 执 行 速 
度 比 直接 在 目标 设备 上 编译 应 用 要 慢 。 一 些 厂 商 针对 特殊 的 硬件 做 了 优化 , 提升 了 每 个 节点 上 作 


IH 
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业 执 行 的 性 能 。 例 如 ， 压 缩 和 解压 特性 就 可 以 在 某 些 硬件 类 型 上 进行 优化 。 
2. 可 扩展 性 


总 有 一 天 , 数据 的 大 小 会 超出 一 家 机 构 所 能 提供 的 计算 或 存储 资源 的 物理 容量 , 这 就 要 求 我 
们 能 够 对 计算 资源 和 存储 资源 做 扩展 。 自 然 扩展 可 以 通过 垂直 扩展 或 者 水 平 扩展 两 种 方式 实现 。 
垂直 扩展 〈 或 者 称 产品 升级 ) 成 本 较 高 ， 而 且 会 受 人 硬件 技术 发 展 的 限制 ， 此 外 ， 缺 乏 灵活 性 也 是 
它 的 一 个 劣势 。 水 平 扩展 (或 者 称 向 外 扩展 ) 是 对 计算 和 存储 进行 扩展 的 首选 方式 。 


理想 情况 下 ,水 平 扩展 仅仅 是 集群 网 络 中 添加 节点 和 磁盘 ， 因 此 配置 变更 最 小 。 然 而 ,对 于 
Hadoop 集 群 的 扩容 , 不 同 的 发 行 版 本 其 难 易 程度 也 不 尽 相同 , 主要 体现 在 工作 量 和 成 本 上 。 KF 
扩展 可 能 会 大 幅 增加 管理 和 部 署 的 成 本 , 说 不 定 还 需要 重 写 许多 应 用 程序 的 代码 。 扩展 的 成 本 还 
取决 于 现 有 的 架构 ， 以 及 如 何 让 其 与 正在 评估 的 Hadoop 发 行 版 本 兼容 。 


重 直 扩展 (或 者 称 产品 升级 ) 是 指 在 系统 中 的 一 个 单一 节点 处 添加 更 多 的 资 
源 , 例如 ， 添加 更 多 的 CPU、 内 存 或 者 存储 设备 到 一 台 计 算 机 上 。 垂直 扩展 可 以 


增加 容量 ， 但 是 不 会 减少 系统 的 负载 。 
S 水 平 扩展 (或 者 称 向 外 扩展 ) 是 在 系统 中 添加 额外 的 节点 。 例如， 通过 网 络 
连接 添加 一 台 计 算 机 到 一 个 分 布 式 系 统 中 。 由 于 新 机 器 也 承担 了 一 部 分 的 负载 ， 
所 以 水 平 扩展 能 减轻 系统 负载 。 然 而 ， 集 群 中 单个 节点 的 容量 并 没有 增加 。 


3. 可 靠 性 


任何 分 布 式 系 统 都 饱 受 部 分 故障 的 困扰 。 故 障 可 能 来 自 硬件 、 软 件 、 网 络 问题 ， 而 且 若 在 普 
通 硬件 上 运行 ,发 生 故 障 的 间隔 时 间 还 会 更 得。 要 想 成 为 高 可 用 、 高 度 一 致 的 系统 ,首要 目标 都 
是 在 处 理 好 这 些 故障 的 同时 不 得 中 断 服务 或 破坏 数据 的 完整 性 。 


重视 可 靠 性 的 发 行 版 都 会 令 其 提供 的 组 件 具 有 高 可 用 性 。 减 少 单 点 故障 ( Single Point of 
Failures, SPOF ) 可 以 确保 组 件 的 可 用 性 ， 而 这 也 意味 着 需要 增加 组 件 的 元 余 度 。 在 过 去 很 长 一 
段 时 间 内 ，Apache Hadoop 只 有 唯一 一 个 NameNode，NameNone 的 硬件 故障 就 意味 着 整个 集群 不 
可 用 了 。 现在, 由 于 增加 了 从 NameNode 和 热 备 份 的 概念 , 在 NameNode 故 障 的 时 候 可 以 使 用 它们 
来 恢复 NameNode 功 能 。 

能 够 减少 集群 管理 员 手 动 操作 的 发 行 版 会 更 可 靠 一 些 。 手 动 的 干预 往往 会 导致 更 高 的 错误 
率 ， 比 如 对 故障 切换 的 处 理 。 故 障 切换 是 系统 的 危急 时 刻 ， 因 为 此 时 的 宛 余 度 较 低 。 这 时 , 任何 
一 个 操作 错误 对 于 应 用 而 言 都 是 致命 的 。 而 运用 自动 故障 切换 处 理 , 系统 就 能 在 较 短 的 时 间 内 恢 
复 运行 ， 故 障 恢复 时 间 越 短 ， 系 统 的 可 用 性 就 越 好 。 


无 论 是 正常 操作 还 是 处 理 故 障 , 都 必须 保证 数据 的 完整 性 。 数据 校 验 可 以 检测 到 数据 中 的 错 
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误 并 尽 可 能 修复 ， 这 就 可 以 确保 数据 安全 ， 此 外 还 有 数据 复制 、 数 据 镜像 和 快照 等 方式 。 数 据 复 
制 会 按照 一 定 的 宛 余 度 要 求 来 确保 数据 的 可 用 性 。 需 要 密切 注意 感知 机 架 信 息 的 智能 数据 布局 ， 
以 及 对 复制 不 足 或 复制 过 多 的 处 理 方式 。 镜像 是 通过 互联 网 将 数据 异步 地 复制 到 其 他 站 点 , EE 
站 故障 的 时 候 可 以 恢复 数据 。 快 照 是 任何 发 行 版 本 都 期 望 具有 的 性 能 ， 它 不 仅 有 助 于 灾难 恢复 ， 
而 且 还 能 帮助 数据 的 离线 访问 。 数据 分 析 会 涉及 大 量 数据 的 试验 和 评估 , 而 快照 就 能 帮助 数据 科 
学 家 在 完成 这 项 工作 的 同时 不 破坏 分 析 成 果 。 


4. 可 管理 性 


部 署 和 管理 Apache Hadoop 开 源 的 发 行 版 需要 对 代码 和 配置 有 深入 的 了 解 ， 这 项 技能 在 IT 管 
理 员 团 队 中 可 能 并 不 是 普遍 拥有 的 。 同 时, IT 管 理 员 需 要 管理 企业 大 量 的 系统 ,Hadoop 只 是 其 中 
的 一 个 。 


面 对 各 种 不 同 的 Hadoop 版 本 ,可 能 需要 对 这 些 版 本 及 其 所 支持 的 生态 圈 内 其 他 组 件 之 间 的 适 
用 性 进行 评估 。 新 版 本 的 Hadoop 文 持 集 群 中 执行 MapReduce 以 外 的 其 他 应 用 模式 , 所 以 新 版 本 可 
以 根据 企业 的 规划 ， 更 有 效 地 利用 企业 内 的 硬件 资源 。 


对 于 企业 而 言 , 要 想 选 择 一 个 合适 的 Hadoop 发 行 版 , 它 的 管理 工具 的 能 力 是 很 关键 的 鉴别 标 
E, 管理 工具 需要 提供 集中 式 的 集群 管理 、 资 源 管理 、 配 置 管理 以 及 用 户 管理 。 此 外 , 作业 调度 、 
自动 升级 、 用 户 配额 管理 和 集中 的 调试 功能 也 是 大 家 希望 看 到 的 性 能 。 


集群 的 健康 检测 是 管理 性 功能 中 男 一 项 重要 特性 。 发 行 版 中 最 好 包含 可 视 化 集群 健康 面板 
( Dashboard )， 并 且 最 好 有 集成 其 他 工具 的 能 力 。 另 外 ， 更 便捷 的 数据 访问 也 是 需要 评估 的 因素 ， 
例如 ,Hadoop 上 支持 POSIX 文 件 系统 接口 会 使 工程 师 和 程序 员 更 容易 浏览 和 访问 数据 , 但 这 也 有 
不 利 的 一 面 ， 它 使 得 修改 数据 成 为 了 可 能 ， 事 实证 明 这 在 某 些 情况 下 是 存在 风险 的 。 


数据 安全 选项 评估 同样 至 关 重 要 , 它 包括 Hadoop 用 户 认证 、 数 据 授权 和 数据 加 密 。 每 家 机 构 
和 企业 可 能 已 经 有 了 自己 的 授权 系统 ， 例 如 Kerberos 或 者 LDAP。 如 果 Hadoop 发 行 版 能 够 集成 已 
有 的 认证 系统 ， 它 就 在 节约 成 本 、 提 高 兼容 性 方面 获得 了 巨大 优势 。 细 化 的 授权 有 助 于 控制 不 同 
层面 对 数据 和 作业 的 访问 权限 。 当 数据 迁 入 或 迁 出 企业 集群 时 , 保护 数据 不 被 穷 取 的 重要 方法 是 
使 用 加 密 的 传输 通道 。 


不 同 发 行 版 本 都 会 提供 与 开发 和 调试 工具 的 集成 。 如 果 它 所 提供 的 工具 能 和 机 构 工 程 师 或 科 
学 家 正在 使 用 的 工具 有 很 多 重合 之 处 ， 那 也 是 一 个 优势 ， 这 不 仅 体现 在 购买 软件 授权 的 成 本 上 ， 
而 且 也 体现 在 更 少 的 培训 和 指导 上 。 同 时 ,由 于 工作 人 员 已 经 习惯 使 用 这 些 工 具 , 这 也 能 提高 机 
构 的 生产 力 。 


1.4.2 ”可 用 的 发 行 版 
当前 有 好 几 种 可 用 的 Hadoop 发 行 版 ， 具 体 列表 可 参见 网 站 : http://wiki.apache.org/hadoop/ 
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Distributions%20and%20Commercial%20Support。 我 们 将 选择 其 中 4 个 进行 详细 探讨 : 


C1 Cloudera Distribution of Hadoop ( CDH ) 
口 Hortonworks Data Platform ( HDP ) 

C MapR 

C] Pivotal HD 


1. Cloudera Distribution of Hadoop 


Cloudera 公 司 创建 于 2009 年 3 月 ， 它 的 主 营业 务 是 提供 Hadoop 软 件 、 支 持 、 服 务 和 企业 级 
Hadoop 及 其 生态 圈 组 件 部 署 培训 。 这 套 软 件 被 称 为 Cloudera Distribution of Hadoop。 作 为 Apache 
软件 基金 会 的 赞助 商 之 一 ， 该 公司 在 提供 Hadoop 支 持 和 服务 的 同时 ， 将 大 部 分 对 Hadoop 的 增强 
功能 合并 到 了 Apache Hadoop 的 主线 中 。 


CDH 现 在 已 升级 到 第 五 个 主 版 本 (CDH5.X )， 并 且 被 认为 是 一 个 成 熟 的 Hadoop 发 行 版 。 它 
的 付费 版 本 包含 一 个 独家 的 管理 软件 


Cloudera Manager; 
2. Hortonworks Data Platform 


2011 年 1 月 ， 雅 虎 公司 的 Hadoop 团 队 出 走 创建 了 Hortonworks 公 司 ， 它 的 主 营业 务 类 似 于 
Cloudera。 他们 的 发 行 版 称 为 Hortonworks Data Platform。HDP 提 供 的 Hadoop 和 其 他 软件 是 完全 人 免 
费 的 ， 只 对 技术 支持 和 培训 收费 。Hortonworks 也 将 增强 功能 合 人 到 Apache Hadoop 主 线 中 。 


HDP 当 前 已 升级 到 第 二 个 主 版 本 , 被 认为 是 Hadoop 发 行 版 中 一 颗 冉 冉 升 起 的 新 星 。 它 拥有 一 
款 免费 并 开源 的 管理 软件 一 一 Ambari。 


3. MapR 


MapR 创 建 于 2009 年 ， 它 的 使 命 是 提供 企业 级 的 Hadoop。 它 的 Hadoop 发 行 版 相 较 于 Apache 
Hadoop 提 供 了 大 量 的 私有 代码 , 其 中 一 些 组 件 他 们 承诺 会 与 现 有 的 Apache Hadoop 项 目 保持 兼容 。 
MapR 发 行 版 的 关键 私有 代码 是 使 用 了 POSIX 兼 容 的 网 络 文件 系统 (POSIX-compatible NFS ) 来 替 
换 HDFS ， 另 一 个 关键 特性 是 文 持 快照 功能 。 


MapR 拥 有 自己 的 管理 控制 台 ( management console )。 不 同 级 别 的 版 本 分 别 命名 为 M3 . M5 
和 M7。 其 中 ，M5 是 他 们 的 标准 商业 版 本 ; M3 是 免费 版 本 ,但 可 用 性 不 高 ; M7 是 付费 版 ， 具 有 
重 写 的 HBase API。 


4. Pivotal HD 
Greenplum 是 EMC 公 司 一 个 主要 的 并 行 数据 存储 产品 ，EMC 将 Greenplum 集 成 到 Hadoop 中 ， 


形成 了 一 个 较 高 级 的 Hadoop 发 行 版 本 一 一 Pivotal HD 。 这 种 整合 减少 了 Greenplum 与 HDFS 之 间 的 
数据 导入 和 导出 操作 ， 从 而 减少 了 成 本 和 延 时 。 
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Pivotal HD 提供 的 HAWQ 技 术 能 够 高 效 、 低 延 时 地 对 HDFS 中 的 数据 进行 查询 ， 在 某 些 
MapReduce 工 作 上 相对 于 Apache Hadoop 有 100 倍 的 性 能 提升 。HAWQ 支 持 在 Hadoop 上 使 用 SQL 处 
理 数据 ， 使 得 熟悉 SQL 的 用 户 能 加 入 到 Hadoop 的 大 家 庭 中 。 


1.5 ”小结 


本 章 ， 我 们 展示 了 Hadoop 的 演进 、 里 程 碑 和 发 行 版 本 ， 深 入 了 解 了 Hadoop 2.X 以 及 它 给 
Hadoop 璋 来 的 变化 。 从 本 章 中 学 到 的 主要 内 容 如 下 。 


口 MapReduce 是 由 于 互联 网 规模 的 数据 收集 、 处 理 和 索引 需求 而 诞生 的 ，Apache Hadoop 是 

MapReduce 计 算 模 型 的 一 个 开源 发 行 版 本 。 

O 在 Hadoop 6 年 的 发 展 历程 中 , 它 变 成 了 大 数据 并 行 和 分 布 式 计算 领域 的 首选 框架 。 社区 已 
经 为 Hadoop 在 企业 中 运用 做 好 了 准备 。Hadoop 1.X 版 本 实现 了 HDFS 的 文件 追加 功能 和 安 
全 特性 ， 这 是 对 企业 用 户 非常 有 利 的 关键 特性 。 

口 MapReduce 支 持 的 使 用 实例 有 限 ， 通 过 融入 其 他 的 应 用 模式 ，Hadoop 扩 展 了 它 在 数据 分 
析 领 域 的 领地 ， 并 增加 了 集群 资源 的 利用 率 。 在 Hadoop 2.X 中 ，JobTracker 被 分 解 ， 而 
YARN 可 以 处 理 集群 资源 管理 和 作业 调度 。MapReduce 属 于 能 够 运行 在 YARN 上 的 一 种 应 
用 模式 。 

口 Hadoop 2.X 将 块 管理 器 从 文件 系统 层 隔 离 出 来 ， 从 而 增强 了 它 的 存储 层 。 这 样 它 能 支持 
多 命名 空间 并 集成 其 他 类 型 的 文件 系统 。Hadoop 2.X 还 对 存储 可 用 性 和 快照 方面 进行 了 
改进 。 

口 Hadoop 的 各 种 发 行 版 都 提供 了 企业 级 的 管理 软件 、 工 具 、 技 术 支 持 、 培 训 和 其 他 服务 。 

它们 中 的 大 部 分 在 功能 上 都 胜 于 Apache Hadoop。 


MapReduce 依 然 是 Hadoop 核 心中 不 可 分 割 的 部 分 。 在 下 一 章 , 我 们 将 探讨 MapReduce 的 优化 
和 最 佳 实践 。 


MapReduce 进 阶 


MapReduce 是 一 种 为 并 行 和 分 布 式 数据 处 理 而 设计 的 编程 模式 ， 它 包含 两 个 步骤 : Map 和 
Reduce. 这 两 个 步 又 的 创建 灵感 来 自 函数 式 编程 个 把 数学 函数 作为 计算 单元 的 计算 机 科学 
分 文 。 对 并 行 和 分 布 式 处 理 而 言 ， 函 数 的 属性 〈 例 如 ， 不 可 修改 和 无 状态 ) 是 非常 有 吸引 力 的 ， 
它 能 在 更 低 成 本 和 复杂 语义 的 情况 下 ， 提 供 很 高 的 并 行 度 和 很 强 的 容错 性 。 


本 章 , 我 们 将 看 到 在 Hadoop 集 群 上 运行 MapReduce 作 业 的 高 级 优化 方法 。 每 个 MapReduce 的 
作业 都 有 输入 的 数据 ， 一 个 Map 任 务 对 应 这 些 数据 的 一 个 分 片 〈split )。Map 任 务 循环 调用 map 郴 
数 处 理 数 据 ， 而 这 些 数 据 是 以 键 - 值 对 (key-value pair ) 的 方式 呈现 的 。map 函 数 将 数据 从 一 种 形 
式 转换 为 另 一 种 形式 ， 每 个 Map 任 务 中 间 输 出 的 数据 将 被 shuffle (一 种 打 散 操作 ， 类 似 于 扑克 有 牌 
的 洗 牌 ) 并 排序 ， 然 后 传送 给 下 游 的 Reduce 任 务 。 拥 有 相同 键 值 的 中 间 数 据 (intermediate data ) 
将 集中 到 同一 个 Reduce 任 务 。Reduce 任 务 调用 reduce 函 数 处 理 键 及 其 对 应 的 所 有 值 ， 然 后 将 输 
出 聚集 并 排序 。 


Map 步 又 是 最 高 并 行 度 的 。 它 一 般 用 来 实现 类 似 于 过 波 .排序 和 转换 数据 这 样 的 操作 。Reduce 
操作 一 般 用 于 实现 数据 的 汇总 操作 。Hadoop 也 提供 了 分 布 式 缓存 (DistributedCache ) 等 特性 作为 
分 布 数据 的 一 个 劳 路 通道 ， 以 及 计数 器 ( counter ) 来 收集 作业 相关 的 全 局 状态 。 我 们 将 会 看 到 它 
们 为 MapReduce 作 业 处 理 所 提 供 的 便利 性 。 


我 们 将 使 用 样 例 代 码 来 协助 理解 Hadoop 的 高 级 特性 和 优化 方法 。 本 章 全 部 内 容 基 于 Hadoop 
2.2.0 版 本 , 并 假设 你 已 经 使 用 过 Java 开 发 环境 和 Hadoop 集 群 ,可 以 是 安装 在 你 的 公司 或 云 上 的 集 
群 ， 也 可 以 是 安装 在 你 的 个 人 电脑 上 的 单机 C standalone ) / 伪 分 布 式 (pseudo-distributed ) 模式 的 
集群 。 你 需要 知道 如 何 编译 Java 程 序 以 及 执行 Hadoop 作 业 来 尝试 这 些 例子 。 


本 章 ， 我 们 将 看 到 如 下 主题 。 
口 不 同 阶段 的 MapReduce 作 业 和 在 每 个 阶段 使 用 的 优化 方法 。 我 们 将 使 用 相关 的 例子 来 深入 
讨论 输入 (input), Map, 、Shuffle/ 排 序 、Reduce 和 输出 ( output ) 等 阶段 。 


口 对 有 益 的 Hadoop 特 性 的 应 用 ， 例 如 分 布 式 缓存 和 计数 器 。 
口 MapReduce 作 业 中 可 用 的 数据 连接 (join) 的 类 型 ， 以 及 它们 的 实现 方式 。 
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2.1 MapReduce 输入 


MapReduce 作 业 依 赖 于 Map 阶 段 为 它 提供 原始 数据 的 输入 ， 这 个 阶段 提供 了 能 获得 的 最 大 并 
行 度 ， 因 此 它 的 智能 化 对 一 个 作业 的 提速 至 关 重 要 。 数 据 被 分 成 块 (chunk )， 然 后 Map 任 务 对 每 
块 数据 进行 操作 。 每 块 数据 被 称 为 Inputsplit。Map 任 务 需 要 在 每 个 Inputsplit 类 上 进行 操 
作 。 还 有 其 他 两 种 类 ，InputFormat 和 RecordReader， 在 处 理 Hadoop 作 业 的 输入 时 ， 它 们 尤 
为 重要 。 


2.1.1 InputFormat 类 


Hadoop 中 一 个 MapRedue 作 业 的 输入 数据 的 规格 是 通过 InputFormat 类 及 它 的 子 类 给 出 的 。 
InputFormat 家 族 的 类 有 以 下 几 项 主要 功能 o 


口 输入 数据 的 有 效 性 检测 。 例 如 ， 检 查 指定 路 径 的 文件 是 否 存在 。 
Q 将 输入 数据 切 分 为 逻辑 块 ( Inputsplit )， 并 把 它们 分 配给 对 应 的 Map 任 务 。 
a 实例 化 一 个 能 在 每 个 Inputsplit 类 上 工作 的 RecordReader 对 象 ， 并 以 键 - 值 对 方式 生 


当 需 要 从 HDFS 中 获取 输入 时 ， 会 广泛 使 用 FileInputFormat 的 派生 类 ; 子 类 DBInput- 
Format 则 是 一 个 能 从 支持 SQL 的 数据 库 读 取 数据 的 特殊 类 ; combineFileInputFormat 是 一 个 
直接 派生 于 FileInputFormat 的 抽象 子 类 ， 它 能 将 多 个 文件 合并 到 一 个 分 片 中 。 


2.1.2 InputSplit 类 
抽象 类 Inputsplit 以 及 它 的 派生 类 从 字 节 的 层面 展示 输入 数据 ， 它 有 以 下 几 个 主要 属性 : 


口 输入 文件 名 

a 分 片 数 据 在 文件 中 的 偏 移 量 

a 分 卢 数 据 的 长 度 〈 以 字 节 为 单位 ) 
a 分 片 数据 所 在 的 节点 的 位 置信 息 


在 HDFS 中 ， 当 一 个 文件 的 大 小 少 于 HDFS 的 块 容量 时 ,每 个 文件 都 将 创建 一 个 Input split 
实例 。 例 如 ， 如 果 HDFS 的 块 容量 为 128 MB ， 任 何 小 于 128 MB 的 文件 都 会 拥有 一 个 Inputsplit 
实例 。 对 于 那些 被 分 割 成 多 个 块 的 文件 〈 文 件 的 大 小 多 于 块 的 容量 )， 将 使 用 一 个 更 为 复杂 的 公 
式 来 计算 Inputsplit 的 数量 。 一 般 情 况 下 ，InputSplit 类 受 限 于 HDFS 块 容量 的 上 限 ， 除 非 最 
小 的 分 片 也 比 块 容量 还 大 (这 是 很 罕见 的 情况 ， 并 且 可 能 导致 数据 本 地 化 的 问题 )。 


基于 分 片 所 在 位 置信 息 和 资源 的 可 用 性 , 调度 器 将 决定 在 哪个 节点 上 为 一 个 分 片 执行 对 应 的 
Map 任 务 ， 然 后 分 片 将 与 执行 任务 的 节点 进行 通信 。 


[E 
j 
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InputSplitSize = Maximum(minSplitSize,  Minimum(blocksize, maxSplitSize)) 
minSplitSize: mapreduce.input.fileinputformat.split.minsize 
blocksize: dfs.blocksize 


maxSplitSize - mapreduce.input.fileinputformat.split.maxsize 


在 早 前 的 Hadoop 版 本 中 ,最 小 分 片 数 的 属性 是 mapred.min.split.size,， 
一 最 大 分 片 数 的 属性 是 mapredq.max.split.size。 但 现在 它们 都 被 废弃 了 。 


2.1.3 RecordReader?2É 


与 InputSplit 不 同 的 是 ，RecordReader 类 将 数据 以 一 条 条 记录 (record ) 的 方式 向 Map 
传递 -RecordReagder 在 Inputsplit 类 内 部 执行 ,并 将 数据 以 键 - 值 对 的 形式 产生 一 条 条 的 记录 。 
RecordReader 的 边界 会 参考 Input split 的 边界 ， 但 不 是 强制 一 致 的 。 极 端 情 况 下 ， 一 个 自 定 
义 的 RecordReader 类 可 以 对 整个 文件 进行 读 或 写 (但 我 们 不 建议 这 么 做 )。 大 部 分 时 候 ， 在 
RecordRead r 类 与 Inputsplit 类 重合 的 情况 下 ， RecordRead r 类 将 对 应 个 InputSplit 


类 ， 从 而 为 Map 任 务 提供 完整 的 数据 记录 。 


通过 FSDataInputStream 的 对 象 ， 可 以 对 一 个 Inputsplit 类 以 字 节 的 方式 读 取 数据 。 虽 
然 这 种 方式 不 会 感知 数据 的 位 置信 息 , 但 是 通常 情况 下 , 它 仅 从 下 一 个 分 片 中 获取 很 少 字 节 的 数 
据 ， 所 以 不 会 有 很 明显 的 负载 过 高 的 问题 。 当 一 条 记录 很 大 时 ， 由 于 节点 间 要 传输 大 量 的 数据 ， 
因此 会 对 性 能 造成 很 大 的 影响 。 


在 下 图 中 ， 这 个 文件 有 两 个 HDFS 块 ， 并 且 记录 R5 路 越 了 两 个 块 。 假 设 最 小 的 分 片 小 于 块 的 
容量 ， 在 这 种 情况 下 ，RecordReader 需 要 读 取 第 二 个 块 的 数据 来 收集 完整 的 记录 。 
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一 个 文件 有 两 个 块 ， 并 且 记 录 R5S 跨 越 两 个 块 
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2.1.4 Hadoop 的 “小 文件 ”问题 


当 输 入 文件 明显 小 于 HDFS 的 块 容量 时 ，Hadoop 会 出 现 一 个 众所周知 的 “小 文件 ”问题 。 小 
文件 作为 输入 处 理 时 ，Hadoop 将 为 每 个 文件 创建 一 个 Map 任 务 ， 这 将 引入 很 高 的 任务 注册 开销 
这 些 任 务 能 够 在 大 约 儿 秒 钟 内 完成 ， 然 而 产生 任务 和 清理 任务 的 时 间 要 比 执行 任务 的 时 间 长 得 
多 。 同 时， 每 个 文件 在 NameNode 中 大 约 要 占据 150 字 节 的 内 存 ， 如 果 大 量 的 小 文件 存在 , 将 使 得 
这 种 对 象 的 数量 激增 , 严重 影响 NameNode 的 性 能 和 可 扩展 性 。 读 取 大 量 的 小 文件 也 使 效率 很 低 ， 
因为 有 大 量 的 磁盘 寻 道 (seek ) 操作 ， 并 且 需 要 跨越 不 同 的 DateNode 去 读 取 。 


o 


不 幸 的 是 ， 小 文件 是 现实 存在 的 ， 但 是 我 们 可 以 采取 如 下 策略 处 理 小 文件 。 


a 在 存储 文件 和 执行 作业 之 前 ， 先 执行 预 处 理 步 又， 即 把 小 文件 合并 成 一 个 更 大 的 文件 。 
SequenceFile( 序列 文件 ) 和 TFile 格 式 是 比较 受 欢 迎 的 将 小 文件 合并 为 大 文件 的 方法 。 
另 一 个 可 选 的 方案 是 使 用 Hadoop Archive File (HAR )， 它 能 减轻 NameNode 的 内 存 压 力 。 
HAR 是 基于 HFDS 的 元 文件 系统 (meta-filesystem )。 

a 使 用 combineFileInputFormat 将 多 个 小 文件 合并 到 一 个 Inputsplit 中 。 同 时 也 可 以 

考虑 用 这 个 方法 来 提高 处 在 相同 节点 或 机 架 的 数据 的 处 理性 能 。 由 于 这 种 方法 没有 改变 

NameNode 中 的 文件 数量 ， 所 以 它 不 能 减轻 NameNode 的 内 存 需 求 量 的 压力 。 


为 了 演示 combineFileInputFormat 的 功能 ,我 们 获取 了 一 份 NSF 授 权 的 从 1990 到 2003 年 
的 数据 集 ， 地 址 是 https://archive.ics.uci.edu/ml/datasets/NSF+Research+Award+Abstracts+1990- 
2003。 尽 管 数据 集 有 130 000 份 , 但 是 我 们 只 考虑 其 中 一 个 只 有 441 份 的 子 集 。MapReduce Hadoop 
作业 从 数据 集中 逐 行 读 取 , 并 产生 441 个 输入 分 片 , 然后 把 结果 输出 到 标准 输出 (standard output )。 
如 下 所 示 为 输入 的 部 分 摘 取 内 容 。 在 这 个 作业 中 ，reduce 任 务 的 数量 设置 为 0: 


14/04/10 07:50:03 INFO input.FileInputFormat: Total input paths to process : 441 
14/04/10 07:50:03 INFO mapreduce.JobSubmitter: number of splits:441 


正如 前 面 章节 所 示 ，Hadoop MapReduce 作 业 的 输入 需要 指定 使 用 InputFormat , 
InputSplit 和 RecordReader 类 。 在 这 个 例子 中 ， 我 们 将 441 份 文件 合并 为 一 个 单独 的 分 片 。 


CombineFileInputFormat 是 一 个 抽象 类 ， 它 能 够 帮助 我 们 合并 文件 ， 从 而 指定 输入 。 开 
发 人 员 唯 一 需要 重 写 (override ) 的 是 createRecordReader () 方 法 。 这 个 方法 实例 化 了 一 个 自 
定义 的 RecordReader 类 的 对 象 来 读 取 记录 。 CombineFileInputFormat2STEgetSplits () 方 
法 中 返回 一 个 combineFilesplit 分 片 对 象 。 每 个 分 片 可 能 合并 了 来 自 不 同文 件 的 不 同 块 。 如 果 
使 用 setMaxSplitsize() 方 法 设置 了 分 片 的 最 大 容量 ， 本 地 节点 的 文件 将 会 合并 到 一 个 分 片 
rp, 本 地 剩余 的 块 "将 与 来 自 同一 机 架 的 其 他 主机 的 块 合并 。 然 而 ,如 果 没 有 设置 这 个 最 大 容量 ， 
合并 操作 不 会 在 本 地 主机 层面 进行 , 它 只 会 在 同一 机 架 内 进行 合并 。 如 果 将 setMaxsplitsize() 


CD 超过 分 片 最 大 容量 的 那 部 分 。 一 一 译 者 注 
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设置 为 HDFS 的 块 容量 ， 那 是 默认 行为 ， 也 就 是 每 个 块 对 应 一 个 分 片 。 
下 面 的 代码 演示 了 基于 这 个 抽象 类 实现 的 实体 类 ( concrete class ): 


package MasteringHadoop; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.InputSplit; 
import org.apache.hadoop.mapreduce.RecordReader; 
import org.apache.hadoop.mapreduce.TaskAttemptContext; 
import org.apache.hadoop.mapreduce.lib.input.*; 
import org.apache.hadoop.util.LineReader; 

import java.io.IOException; 


public class MasteringHadoopCombineFileInputFormat extends 
CombineFileInputFormat«LongWritable, Text»( 
GOverride 
public RecordReader«LongWritable, Text» 
createRecordReader(InputSplit inputSplit, TaskAttemptContext 
taskAttemptContext) throws IOException ( 
return new CombineFileRecordReader«LongWritable, 
Text»-((CombineFileSplit) inputSplit, taskAttemptContext, 
MasteringHadoopCombineFileRecordReader.class); 


下 载 样 例 代码 
1 
Q 你 可 以 使 用 你 的 Packt 账 号 从 下 面 的 地 址 下 载 通过 Packt 购 买 的 所 有 书籍 中 的 
样 例 代 码 : http://www.packtpub.com。 如 果 你 是 从 其 他 地 方 购买 了 本 书 ， 可 以 访 


问 http://www.packtpub.com/support 并 注册 ， 然 后 就 能 从 邮件 直接 收 到 样 例 代 码 。 


r CombineFileFormat 类 有 一 个 isSsplitable() 方 法 ， 它 的 默认 返回 值 为 
true。 如 果 你 确认 整个 文件 需要 以 一 个 Map 任 务 来 处 理 ， 则 需要 将 它 设置 为 返回 


false o 


下 文 所 示人 代码 演示 了 自 定义 的 R cordRead r 类 ， 创建 这 个 类 是 为 了 从 CombineFile- 
split 中 返回 记录 ,CombineFileSplit 和 FileSplit 之 间 的 不 同 点 在 于 是 否 存 在 包含 多 个 偏 
移 量 和 长 度 的 多 个 路 径 。 自 定义 的 RecordReader 类 会 被 分 片 中 的 每 个 文件 调用 ， 因 此 ， 自 定 
义 RecordReader 类 的 构造 函数 必须 有 一 个 整 型 (integer ) 变量 指明 特定 的 文件 正在 用 于 产生 
记录 。 
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第 二 个 很 重要 的 方法 是 nextKeyValue(), 它 负 责 产 生 下 一 个 键 - 值 对 ,getcurrentKey () 
fllgetCurrentValue () 方 法 返回 这 xA DR. 在 下 面 的 例子 中 ， 键 是 当前 位 置 在 文件 中 的 字 
节 偏 移 量 ， 值 是 当前 所 在 行 的 文本 。LineReader 对 象 被 用 于 读 取 每 一 行 数据 : 


public static class MasteringHadoopCombineFileRecordReader extends 
RecordReader«LongWritable, Text>{ 
private LongWritable key; 
private Text value; 
private Path path; 
private FileSystem fileSystem; 
private LineReader lineReader; 
private FSDataInputStream fsDataInputStream; 
private Configuration configuration; 
private int fileIndex; 
private CombineFileSplit combineFileSplit; 
private long start; 
private long end; 


public MasteringHadoopCombineFileRecordReader 
(CombineFileSplit inputSplit, TaskAttemptContext 

context, Integer index) throws IOException(í 

his.fileIndex - index; 

his.combineFileSplit - inputSplit; 

this.configuration - context.getConfiguration(); 

this.path - inputSplit.getPath(index); 

this.fileSystem - 

this.path.getFileSystem(configuration); 

this.fsDatalInputStream = fileSystem.open(this.path); 

this.lineReader - new 
LineReader(this.fsDataInputStream, 

this.configuration); 

his.start - inputSplit.getOffset(index); 

his.end = this.start + inputSplit.getLength(index); 

this.key - new LongWritable(0); 

this.value - new Text(""); 


CR c 


GOverride 
public void initialize(InputSplit inputSplit, 
TaskAttemptContext taskAttemptContext) throws 
IOException, InterruptedException ( 


// 构造 函数 重 载 


GOverride 
public boolean nextKeyValue() throws IOException, 
InterruptedException ( 
int offset - 0; 
boolean isKeyValueAvailable - true; 
if(this.start « this.end)( 
offset - this.lineReader.readLine(this.value); 
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this.key.set(this.start); 
this.start += offset; 


if(offset -- O)( 
this.key.set(0); 
this.value.set(""); 
isKeyValueAvailable - false; 


return isKeyValueAvailable; 


GOverride 

public LongWritable getCurrentKey() throws IOException, 
InterruptedException { 
return key; 


GOverride 

public Text getCurrentValue() throws IOException, 
InterruptedException { 
return value; 


GOverride 
public float getProgress() throws IOException, 
InterruptedException ( 
long splitStart - this.combineFileSplit.getOffset(fileIndex); 
if(this.start « this.end)( 
return Math.min(1.0f, (this.start - splitStart)/ 
(float) (this.end - splitStart)); 


return 0; 

} 

@Override 

public void close() throws IOException { 
if(lineReader != null)( 


lineReader.close(); 


j 

下 面 的 代码 段 给 出 了 Mapper 类 和 驱动 程序 的 实现 。 在 驱动 程序 中 最 重要 的 一 行 代码 就 是 设 
置 InputFormat 作为 job.setInputFormatClass (MasteringHadoop.MasteringHadoop- 
Combine FileInputFormat .class)。 当 程序 执行 时 , 得 到 的 标准 输出 也 在 代码 段 的 后 面 列 出 。 
分 片 的 数量 是 1， 数 据 集 的 大 小 为 ;5 MB ， 而 HDFS 块 容量 为 128 MB. 


package MasteringHadoop; 


AE 
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import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.mapreduce.*; 
import org.apache.hadoop.io.*; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
import java.io.IOException; 
public class CombineFilesMasteringHadoop { 
public static class CombineFilesMapper extends 
Mapper«LongWritable, Text, LongWritable, Text>{ 
GOverride 
protected void map(LongWritable key, Text value, Context 
context) throws IOException, InterruptedException ( 
context.write(key, value); 
j 
j 
public static void main(String args[]) throws IOException, 


InterruptedException, ClassNotFoundException(í 


GenericOptionsParser parser - new 
GenericOptionsParser(args); 

Configuration config - parser.getConfiguration(); 

String[ ] remainingArgs - parser.getRemainingArgs(); 

Job job = Job.getInstance(config, "MasteringHadoop- 

CombineDemo"); 

job.setOutputKeyClass (LongWritable.class); 

job.setOutputValueClass (Text.class); 

job.setMapperClass(CombineFilesMapper.class); 

job.setNumReduceTasks (0) ; 


job.setInputFormatClass (MasteringHadoop.MasteringHadoopCombineFile 
InputFormat.class); 


} 


job.setOutputFormatClass (TextOutputFormat.class); 
FileInputFormat .addInputPath(job, new 
Path(remainingArgs[0])); 
TextOutputFormat.setOutputPath(job, new 
Path(remainingArgs[1])); 
job.waitForCompletion(true); 


输出 内 容 如 下 : 


14/04/10 16:32:05 INFO input.FileInputFormat: Total input paths to process 


14/04/10 16:32:06 INFO mapreduce.JobSubmitter: number of splits:1 


2.1.5 输入 过 滤 


441 


通常 ,一 个 作业 的 输入 都 需要 基于 某 些 属性 进行 过 滤 。 数 据 层面 的 过 滤 可 以 在 Map 里 面 完 成 ， 


id 


但 是 如 果 能 够 在 Map 产 生前 的 文件 层面 进行 过 滤 ， 效 率 要 高 很 多 。 这 种 过 滤 使 得 Map 任 务 仅 需要 
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对 感 兴趣 的 文件 进行 处 理 ， 并 能 减少 不 必要 的 文件 读 取 ,， 从 而 对 Map 任 务 的 运行 时 间 产 生 积极 的 
影响 。 例 如 ， 只 有 在 某 个 时 间 段 内 生成 的 文件 才 需 要 进行 分 析 操 作 。 


让 我 们 使 用 那 441 份 授权 文件 来 演示 过 滤 功 能 。 我 们 需要 处 理 的 文件 的 文件 名 需要 匹配 一 个 
特定 的 正则 表达 式 ， 并 且 满 足 最 小 文件 大 小 。 这 两 个 要 求 都 有 特定 的 作业 参数 ， 分 别 是 
filter.name 和 filter.min.size。 实 现时 需要 扩展 configured 类 ， 并 像 下 面 代 码 段 那样 实 
现 PathFilter 接 口 。Configured 类 是 能 够 使 用 configuration 进 行 配 置 的 基 类 , PathFilter 
接口 包含 了 accept () 方 法 ， 而 在 accept () 方 法 的 实现 中 ， 接 受 一 个 Path 参 数 作 为 人参， 并 根 
据 是 否 需 要 在 输入 中 包含 这 个 文件 来 决定 返回 true 或 者 false。 下 面 的 代码 段 展 示 了 这 个 类 的 主 
要 实现 : 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.conf.Configured; 
import org.apache.hadoop.fs.FileSystem; 


import org.apache.hadoop.fs.Path; 


import org.apache.hadoop.fs.PathFilter; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 

import java.io.IOException; 

import java.util.regex.Matcher; 

import java.util.regex.Pattern; 


public static class MasteringHadoopPathAndSizeFilter extends 
Configured implements PathFilter ( 
private Configuration configuration; 
private Pattern filePattern; 
private long filterSize; 
private FileSystem fileSystem; 


GOverride 
public boolean accept(Path path)( 
// 在 这 里 重 写 accept 实 现 


GOverride 
public void setConf(Configuration conf)( 
// 在 这 里 重 写 setConf 实 现 
} 
} 


这 里 的 一 个 重要 变化 就 是 重 写 了 setconf () 方 法 。 这 个 方法 用 来 对 Configuration 的 私有 
变量 进行 设置 ， 并 且 读 取 它 的 任何 属性 。 在 这 个 驱动 类 (driver class) 中 ， 需 要 使 用 下 面 的 代码 
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告诉 作业 过 滤器 的 存在 : 


FileInputFormat.setInputPathFilter(job, 
MasteringHadoopPathAndSizeFilter.class); 


setConf () 方 法 的 实现 如 下 : 


GOverride 
public void setConf(Configuration conf)( 
this.configuration - conf; 


if(this.configuration ! 
String filterRegex 
this.configuration.get("filter.name"); 


null){ 


if(filterRegex !- null){ 
this.filePattern - 
Pattern.compile(filterRegex); 


} 


String filterSizeString = 
this.configuration.get("filter.min.size"); 


if(filterSizeString !- null)( 
this.filterSize - 
Long.parseLong(filterSizeString); 


} 


try{ 
this.fileSystem = 
FileSystem.get(this.configuration); 
j 
catch(IOException ioException)( 
// 错误 处 理 
} 


} 


在 下 面 的 代码 中 ，accept () 方 法 为 所 有 的 目录 返回 true。 当 前 目录 的 路 径 也 是 accept () 
方法 的 输入 路 径 之 一 。 它 使 用 Java 的 正则 表达 式 类 ( 例如 Pattern 和 Matches ) 决定 是 否 存 在 匹 
配 正则 表达 式 的 路 径 , 并 以 此 设置 一 个 相应 的 布尔 ( boolean ) 变量 。 进 行 二 次 检查 以 确定 文件 大 
小 ， 并 与 过 滤器 设置 的 大 小 相 比较 。Filesystem 类 的 对 象 暴 露 一 个 能 返回 Filestatus 对 象 的 
getFileStatus () 方 法 ，FileStatus 对 象 能 够 通过 获取 器 ( getter ) 检测 对 应 文件 的 属性 。 


Pam! 


GOverride 
public boolean accept(Path path)( 
boolean isFileAcceptable - true; 
try{ 
if(fileSystem.isDirectory (path))( 
return true; 
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if(filePattern !- null)( 
Matcher m - 
filePattern.matcher(path.toString()); 
isFileAcceptable - m.matches(); 


if(filterSize > 0){ 

long actualFileSize - 
fileSystem.getFileStatus(path).getLen(); 

if(actualFileSize > this.filterSize)t 
isFileAcceptable &- true; 

} 

elset 
isFileAcceptable - false; 


) 


) 
catch(IOException ioException)( 
// 错误 处 理 


) 


return isFileAcceptable; 


} 


如 下 的 命令 行 接受 文件 名 中 包含 a999645 的 文件 ， 且 文件 的 大 小 大 于 2500 字 节 。 如 果 两 个 参 
数 都 忽略 ， 那 么 对 于 此 属性 就 没有 应 用 任何 过 滤器 。 


hadoop jar MasteringHadoop-1.0-SNAPSHOT-jar-with-dependencies.jar 
-D filter.name-.*a999645.* -D filter.min.size-2500 grant-subset 
grant-subset-filter 


三 个 文件 通过 了 测试 ， 输 出 结果 如 下 所 示 。 需 要 注意 的 是 ， 过 滤 行 为 是 在 分 片 产生 之 前 执 


14/04/10 21:34:38 INFO input.FilelInputFormat: Total input paths to process : 3 
14/04/10 21:34:39 INFO mapreduce.JobSubmitter: number of splits:3 


2.2 Map 任务 


Map 阶 段 的 效率 是 由 作业 的 输入 数据 的 特点 决定 的 。 我 们 已 经 知道 ,过 多 的 小 文件 会 出 现 大 
量 的 分 片 ， 从 而 导致 Map 任 务 的 激增 。 另 一 个 需要 特别 注意 的 重要 统计 项 是 Map 任 务 的 平均 运行 
时 间 。 太 多 或 者 太 少 的 Map 任 务 都 会 对 作业 的 性 能 产生 不 利 的 影响 。 关 键 是 要 让 这 两 者 达到 一 个 
平衡 点 ， 而 这 又 取决 于 应 用 和 数据 本 身 。 
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28 
| q 根据 实践 总 结 的 一 条 经 验 法 则 是 : 单个 Map 任 务 执行 的 时 间 大 约 保持 在 1 至 3 | 
分 钟 


2.2.1 dfs.blocksize 属 性 


集群 中 HDFS 文 件 的 块 的 默认 容量 可 以 被 配置 文件 所 覆盖 ,也 就 是 hdfs-site.xml 文 件 ， 通常 位 
于 Hadoop 安 装 目录 的 etc/hadoop 文 件 夹 下 。 某 些 情况 下 ， 一 个 Map 任 务 可 能 只 需要 几 秒 时 间 就 可 
以 处 理 一 个 块 , 所 以 , 此 时 最 好 让 Map 任 务 处 理 更 大 的 块 容量 。 通过 如 下 方法 能 够 达到 这 个 目的 : 


口 增加 参数 fileinputformat .split.minsize， 使 其 大 于 块 的 容量 
口 增加 文件 存储 在 HDFS 中 的 块 的 容量 


前 者 导致 数据 本 地 化 的 问题 ( locality problem ), 例如 Inputsplit 可 能 会 包含 其 他 主机 的 块 ; 
后 者 能 够 维持 数据 都 在 本 地 节点 ， 但 要 求 你 重新 加 载 HDFS 中 的 文件 。 你 可 以 使 用 下 面 的 命令 来 
完成 这 个 操作 ,文件 tiny.dat.txt 以 块 容量 512 MB 的 方式 上 传 到 HDFS 中 , 而 默认 的 块 容量 是 128 MB 
(之 前 的 版 本 是 64 MB )。 


hadoop fs -D dfs.blocksize=536870912 -put tiny.dat.txt 
tiny.dat.newblock.txt 


M 
| Q 在 任何 应 用 中 ，Map 任 务 的 数量 不 应 该 超过 60 000 31, #70 000. ] 


有 时 Map 任 务 可 能 会 受到 CPU 的 约束 ,也 就 是 说 ，LILO 是 Map 任 务 运行 时 的 重要 部 分 。 这 种 情 
况 下 , 最 好 利用 集群 中 所 有 的 可 用 计算 资源 。 减 小 fileinputformat .split. axsize 属 性 值 ， 
使 它 小 于 HDFS 的 块 的 容量 ， 从 而 帮助 提高 集群 资源 的 利用 率 。 


zi 减少 利用 数据 本 地 化 的 Map 任 务 数量 有 利于 提高 作业 的 性 能 。 但 是 当 出 现 作 
Q 业 失 败 时 ， 它 可 能 会 增加 作业 的 延 时 。 当 一 个 单独 的 Map 任 务 处 理 相当 大 的 一 块 
数据 时 ， 如 果 失 败 就 可 能 会 阻塞 整个 作业 。 


2.2.2 ”中间 输出 结果 的 排序 与 溢出 


将 中 间 输 出 结果 从 Map 任 务 发 送 到 Reduce 任 务 ， 需 要 在 Map 侧 ( 如 下 图 所 示 ) 和 Reduce 侧 进 
行 复杂 的 操作 。Map 任 务 的 输出 结果 不 仅 要 按照 键 进行 分 区 ， 以 发 送 到 正确 的 Reduce 任 务 ， 而 且 
每 个 分 区 的 键 值 还 要 排序 。 然 后 已 分 区 的 数据 将 会 分 派 到 合适 的 Reduce 任 务 执行 者 。 


Map 任 务 产 生 的 中 间 输 出 记录 并 不 是 直接 写 人 磁盘 ,而 是 使 用 环形 缓冲 区 的 方式 缓存 在 本 地 
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WEF, 竺 缓冲 区 满 后 才 写 人 到 磁盘 。 环形 缓冲 区 的 大 小 是 通过 mapredquce.task.io.sort.mb 
属性 配置 的 ， 这 个 参数 的 默认 值 为 100， 也 就 是 环形 缓冲 区 有 100 MB 的 容量 。 这 个 属性 会 被 
mapred-default.xml 或 mapred-site.xml 文 件 中 设 定 的 该 属性 值 覆 盖 ， 而 这 两 个 文件 在 Hadoop 安 装 目 
录 的 etc/hadoop 中 。 本 节 讨 论 的 所 有 属性 都 可 以 在 这 两 个 文件 中 设置 。 被 缓冲 的 键 - 值 对 记录 已 经 
被 序列 化 ， 但 是 没有 被 排序 。 


Map 任 务 输出 工作 流 
每 个 键 - 值 对 形式 的 记录 都 附带 了 一 些 额 外 的 审计 (accounting ) 信息 。 无 论 每 个 记录 中 的 键 
或 者 值 的 大 小 是 多 少 ， 这 些 信息 都 包含 一 个 16 字 节 长 度 的 常量 值 。 
为 实际 输出 记录 而 申请 的 缓存 的 使 用 率 有 一 个 软 阔 值 ， 由 maprequce.task.io.sort . 
spil1.percent 属 性 设置 。 这 个 属性 的 默认 值 是 0.8， 也 就 是 当 输 出 记录 占据 了 缓存 的 80% 的 空 
间 时 ， 就 会 被 存储 到 磁盘 中 。 


在 MAPREDUCE-64 补 丁 之 前 ，io.record.sort.percent 属 性 是 为 
信息 申请 的 缓存 的 软 阅 值 ， 默认 值 是 0.05。 当 审计 信息 达到 这 个 阅 值 时 ， 将 会 
发 缓存 溢出 (spill )。 这 经 常 导 致 更 多 的 缓存 溢出 并 减低 缓存 的 使 用 率 ， Mere | 是 
> 在 记录 比较 小 的 情况 下 。 
这 个 补丁 之 后 ，io.record.sort.percent 属 性 修改 为 自动 根据 记录 的 大 
小 调整 ， 而 不 是 手动 设置 。 
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当 占用 的 环形 缓存 空间 超出 软 阔 值 后 ， 溢 出 行为 会 在 一 个 后 台 线 程 执行 。Map 任 务 不 会 因为 
缓存 溢出 而 被 阻塞 。 但 是 ， 如 果 环 形 缓冲 的 占用 达到 了 硬 限制 ，Map 任 务 将 会 被 阻塞 ， 直 到 溢出 
行为 结束 为 止 。 溢出 行为 所 在 的 线程 会 将 记录 基于 键 进行 分 区 , 在 内 存 中 将 每 个 分 区 的 记录 按键 
排序 ， 然 后 写 到 一 个 文件 中 。 每 次 溢出 ， 都 有 一 个 独立 的 文件 存储 。 


y 按键 排序 的 算法 可 以 通过 map .sort.class 必 性 来 指定 .默认 的 算法 是 快速 
Q 排序 ， 在 org.apache.hadoop.util.QuickSort 中 实现 。 
分 区 算法 的 类 是 通过 mapreduce .partitioner.class 属 性 设置 的 。 缓存 溢出 的 线程 通过 
这 个 类 的 一 个 实例 来 决定 这 些 分 区 分 配给 哪个 Reduce 任 务 。 


一 旦 Map 任 务 完成 ， 绥 存 溢出 的 各 个 文件 将 会 以 按键 排序 后 的 状态 合并 到 一 个 输出 文件 中 。 
mapreduce.cluster.1ocal .dir 参 数 包含 了 这 些 输出 文件 应 该 放置 的 目录 。 在 写 和 人 各 个 输出 
文件 时 ， 同 时 合并 文件 的 流 (stream) 的 数量 是 通过 mapreduce.task.io.sort.factor 参 数 
指定 的 。 它 的 默认 值 是 10， 也 就 是 ， 这 个 步 又 中 将 会 同时 打开 10 个 文件 来 执行 合并 。 

当 缓 存 洲 出 发 生 时 ，LIO 请 求 量 是 平时 的 3 倍 。 一 旦 缓存 洪 出 到 磁盘 ， 当 Map 任 务 结束 时 ， 这 
个 文件 将 会 被 读 取 ， 并 合并 到 单一 的 文件 中 ， 然 后 再 写 到 磁盘 中 。 所 以 ， 最 好 是 仅 在 Map 任 务 结 
束 的 时 候 才 将 缓存 写 到 磁盘 中 。 


> 如 果 Map 任 务 结束 时 的 合并 操作 占用 的 时 间 很 少 , 就 不 需要 对 排序 及 缓存 写 
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采用 以 下 方法 可 以 提高 排序 和 缓存 写 人 磁盘 的 效率 。 


O 设置 maprequce.task.io.mpb 属 性 增加 环形 缓冲 区 的 大 小 ， 从 而 避免 或 减少 缓存 溢出 的 
数量 。 当 调整 这 个 参数 时 , 最 好 同时 检测 Map 任务 的 VM 的 堆 大 小 , 并 必要 的 时 候 增 加 堆 
空间 。 

O 将 mapreduce.task.io.sort.factor 属 性 的 值 提 高 100 售 左右 ， 这 可 以 使 合并 处 理 更 

快 ， 并 减少 磁盘 的 访问 。 

口 为 键 和 值 提 供 一 个 更 高 效 的 自 定义 序列 化 工具 。 序 列 化 后 的 数据 占据 的 空间 越 少 ， 缓 存 

的 使 用 率 就 越 高 。 

口 提供 更 高 效 的 Combiner ( 合并 器 )， 使 Map 任 务 的 输出 结果 聚合 效率 更 高 。 这 不 仅 减少 了 
通过 网 络 传输 给 Reduce 任 务 的 数据 ， 而 且 能 够 更 快 地 写 磁盘 ， 并 减少 溢出 的 缓存 和 输出 
结果 使 用 的 存储 空间 。 随 后 的 章节 将 会 介绍 有 关 Combiner 的 更 多 详细 信息 。 

口 提供 更 高 效 的 键 比较 器 和 值 的 分 组 比较 器 ， 可 以 使 得 排序 处 理 在 运行 时 更 快速 。 
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在 很 多 类 型 的 MapReduce 应 用 中 , 对 同一 个 分 区 的 键 的 排序 可 能 并 不 是 必要 
的 。 这 个 补丁 也 被 称 为 排序 避免 (sort avoidance )， 它 可 能 会 获得 显著 的 性 能 提 
升 。Reducer 不 需要 等 到 所 有 的 Map 任 务 完 成 就 可 以 开始 执行 了 。 
这 个 增强 补丁 当前 正 处 于 开放 状态 ， 很 有 可 能 在 未 来 的 版 本 中 出 现 。 


2.2.3 ”本 地 reducer 和 Combiner 


Combiner 在 本 地 节点 将 每 个 map 任 务 输出 的 中 间 结 果 做 本 地 聚合 ， 实 际 上 就 是 本 地 reducer， 
它 可 以 减少 需要 传递 给 reducer 的 数据 量 。 用 于 派生 和 实现 combiner 的 基础 类 与 reducer 的 相同 , 但 
是 ， 基 于 不 同 的 应 用 ， 开 发 者 可 能 选择 让 combiner 和 reducer 有 不 同 的 逻辑 。 可 以 通过 调用 
setCombinerClass () 来 指定 一 个 作业 的 combiner。 


M Map 任 务 的 JVM 的 堆 空 间 大 小 可 以 使 用 mapreduce.map.java.opts 参 数 
Q 设置 ， 默认 值 是 -Xxmx1024m。 


如 果 指 定 了 Combiner， 它 可 能 在 两 个 地 方 被 调用 : 
a 当 缓 存 溢出 线程 将 缓存 存放 到 磁盘 时 
a 当 缓存 溢出 文件 正在 被 合并 到 单一 输出 文件 以 便 给 Reduce 任 务 消费 时 

无 论 何 时 ， 当 为 作业 设置 Combiner 类 时 ， 前 者 都 将 被 调用 ; 然而 ， 后 者 仅 有 在 缓存 溢出 的 数 
量 超过 maprequce .map .combine.minspill1s 属 性 配置 的 值 时 才 会 发 生 。 这 个 上 限 的 默认 值 为 
3， 也 就 是 说 ， 只 有 当 绥 存 溢出 的 数量 至 少 达到 3 时 ， 才 会 在 合并 的 时 候 调 用 Combiner。 


然 被 保存 下 来 。 可 以 通过 mapredquce .task.files.preserve.filepattern 
属性 指定 模式 来 实现 这 个 功能 。 


| à Map 任 务 的 中 间 结 果 文 件 如 果 匹 配 一 个 正则 表达 式 , 就 能 够 在 作业 退出 后 依 


2.2.4 ”获取 中 间 输 出 结果 一 一 Map 侧 


Reducer 需 要 通过 网 络 获取 Map 任 务 的 输出 结果 , 然后 才能 执行 Reduce 任 务 。 因 此 ,网 络 往往 
是 一 个 分 布 式 系 统 的 瓶颈 。 可 以 通过 下 述 Map 侧 的 优化 来 减轻 网 络 负载 。 


口 Map 任 务 的 中 间 输 出 结果 使 用 一 个 合适 的 压缩 编码 进行 压缩 。 为 了 能 使 用 压缩 ， 需 要 将 
mapreduce.map.output. compress 属 性 设置 为 true, 而 压缩 编码 的 类 型 可 以 通 过 
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mapreduce.map.output.compress.codec 属性 来 指定 。 有 很 多 压缩 方法 可 供 选 择 
我 们 将 在 后 续 章节 详细 介绍 。 

口 Reduce 任 务 在 获取 Map 任 务 的 输出 分 片 时 ,使 用 的 是 HTTP 协 议 。 可 以 使 用 mapreduce. 
tasktracker.http.threads 属 性 指定 Reduce 任 务 执行 HTTP 请 求 的 线程 的 数量 。 每 个 
http 读 取 请 求 需要 一 个 独立 的 线程 执行 。 如 果 这 个 属性 设置 很 小 的 值 , 由 于 请 求 需要 排队 ， 
会 导致 获取 数据 的 请 求 延 时 增加 。 这 个 属性 的 默认 值 是 40， 也 就 是 40 个 线程 。 


2.8 Reduce 任务 


Reduce 任 务 是 一 个 数据 聚合 的 步 又。 如 果 Reduce 任 务 的 数量 没有 指定 ， 默 认 值 为 1。 只 执行 
一 个 Reduce, 可 能 会 面临 这 个 Reduce 节 点 负载 过 大 的 风险 ,而 使 用 过 多 的 Reduce 任 务 则 意味 着 复 
杂 的 洗 牌 处 理 (shuffle )， 并 使 输出 文件 的 数量 激增 ， 从 而 对 NameNode 造 成 很 大 的 压力 。 想 要 确 
定 一 个 最 优 的 Reduce 任 务 的 数量 ， 关 键 是 要 理解 数据 分 布 和 分 片 函数 。 


M 
| Q 理想 的 配置 是 使 每 个 Reduce 任 务 处 理 1 GB 到 5 GB 的 数据 。 


Reduce 任 务 的 数量 可 以 通过 mapreduce .job. reduces 属 性 来 设置 ， 也 可 以 通过 编程 的 方 
式 ， 调 用 Job 对 象 的 setNumReduceTasks () 方 法 来 设置 。 一 个 节点 可 以 执行 的 Reduce 任 务 的 数 


E 


量 存在 一 个 上 限 > 可 以 通过 mapreduce .tasktracker.reduce.maximum m rZ 6 


可 以 采用 下 列 探 试 法 来 决定 Reduce 任 务 的 合理 数量 : 
0.95 * (节点 数量 *mapreduce.tasktracker.reduce.maximum ) 
; 3 一 个 方法 是 : 
1.75* (节点 数量 * mapreduce.tasktracker.reduce.maximum) 
在 0.95 的 情况 下 ， 每 个 reducer 都 可 以 在 Map 任 务 完成 后 立即 执行 ; 而 在 1.75 
的 情况 下 , 较 快 的 节点 将 在 完成 他 们 第 一 个 Reduce 任 务 后 ,， 蕊 上 执行 第 二 个 。 这 
样 能 达到 更 好 的 负载 均衡 效果 。 


2.3.1 ”获取 中 间 输 出 结果 一 一 Reduce 侧 


Reduce 任 务 在 结束 时 都 会 获取 Map 任 务 相 应 的 分 区 数据 ， 这 个 过 程 称 为 复制 阶段 (copy 
phase )。 一 个 Reduce 任 务 能 够 并 行 地 从 多 少 个 Map 任 务 获取 数据 是 由 mapreduce.shuffle. 
redquce.parallelcopies 人 参数 决定 的 。 这 个 值 越 小 Reduce 的 队列 就 越 长 。Reduce 任 务 可 能 需 
要 等 待 一 个 可 用 的 槽 位 ( slot )， 才 能 开始 从 Map 任 务 获取 数据 。 
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在 Reduce 任 务 由 于 网 络 连接 问题 不 能 获取 Map 任 务 输出 数据 的 情况 下 ， 它 会 以 指数 退让 
C exponential backoff) 的 方式 重 试 。 在 mapred .reduce.copy .backoff 属 性 设置 的 超时 时 间 到 
达 之 前 ， 都 会 持续 进行 重 试 。 超 时 之 后 ，Reduce 任 务 将 被 标志 为 失败 状态 


2.3.2 ”中间 输出 结果 的 合并 与 溢出 


与 Map 任 务 的 排序 和 溢出 类 似 ，Reduce 任 务 也 需要 对 pede 的 输出 结果 进行 合并 ， 
过 程 如 下 图 所 示 。 根 据 Map 任 务 的 输出 数据 的 的 大 小 ， 可 能 将 其 复制 到 a 


mapreduce.reduce.shuffle.input.buffer.percent 属 Mino dp si] 
在 堆栈 空间 中 的 占用 比例 。 


mapreduce.reduce.shuffle.merge.percent 属 性 决定 了 绥 存 溢出 到 磁盘 的 阔 值 ， 默 认 
值 是 0.66。maptredaduce.treduce.metrge.inmem.threshold 属 性 设置 了 Map 任 务 在 缓存 溢出 前 
能 够 保留 在 内 存 中 的 输出 个 数 的 阔 值 ,默认 值 是 1000。 上 述 两 个 净值 中 只 要 有 一 个 满足 ， 输 出 数 
据 都 将 会 写 到 磁盘 中 。 


通过 HTTP 传 输 
的 Map 输 出 


加 载 进 内 存 


无 法 加 载 进 内 存 


磁盘 中 的 
溢出 


磁盘 中 的 
溢出 


后 台 线 程 会 持续 合并 磁盘 的 文件 。 在 收 到 所 有 的 Map 任 务 输 出 数据 后 ，Reduce 任 务 进 入 合并 
(merge ) 或 者 排序 (sort ) 阶段 。 同 样 ， 与 Map 任 务 的 合并 类 似 ， 同 时 合并 的 文件 流 (file stream ) 
的 数量 是 由 mapreduce.task.io.sort.factor 属 性 决定 的 。 调 整 这 类 参数 的 方式 可 以 参照 
Map 侧 的 合并 /溢出 参数 ， 关 键 是 要 尽 可 能 在 内 存 中 进行 处 理 。 

在 较 新 的 Hadoop 版 本 中 ， apreduce.reduce.merge.memtomem.enabled 和 和 mapreduce. 
reduce.merge.memtomem.thr shold 参 数 可 以 实现 内 存 中 的 合并 功能 。 


Map 任 务 输出 数据 的 所 有 压缩 操作 ， 在 合并 时 都 会 在 内 存 中 进行 解压 缩 操作 。 
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2.4 MapReduce 的 输出 
输出 依赖 于 作业 中 Reduce 任 务 的 数量 。 下 面 是 一 些 优化 输出 的 建议 。 


口 压缩 输出 ， 以 节省 存储 空间 。 同 时 ， 压 缩 也 能 提高 HDFS 写 人 的 吞吐 量 。 

口 避免 写 和 人 带 外 端 文件 (out-of-band side file ) 作为 Reduce 任 务 的 输出 。 如 果 需 要 收集 统计 
数据 ， 使 用 计数 器 会 好 一 点 。 收 集 端 文件 的 统计 信息 将 需要 额外 的 聚合 步骤 。 

口 根据 作业 输出 文件 的 消费 者 的 需求 ， 可 分 割 的 压缩 技术 或 许 合适 。 

口 以 较 大 块 容 量 的 设置 ， 写 人 较 大 的 HDFS 文 件 ， 有 助 于 帮助 后 续 的 数据 消费 者 减少 他 们 的 
Map 任 务 数 。 这 在 我 们 级 联 MapReduce 作 业 时 特别 有 用 。 在 这 种 情况 下 ,一 个 作业 的 输出 
将 是 下 一 个 作业 的 输入 。 知 以 较 大 块 容 量 的 设置 写 人 较 大 的 HDFS 文 件 ,， 在 后 续 作 业 中 就 
不 必 专 门 处 理 Map 输 入 。 


任务 的 推测 执行 


Straggler ( 掉队 者 ) 是 指 那些 跑 得 很 慢 但 最 终 会 成 功 完成 的 任务 。 一 个 掉队 的 Map 任 务 会 阻 
止 Reduce 任 务 开始 执行 , 因此 会 延迟 整个 作业 的 完成 ,由 于 硬件 性 能 的 退化 或 者 软件 的 错误 配置 ， 
可 能 会 出 现 掉 队 任务 。 


Hadoop 不 能 自动 纠正 掉队 任务 , 但 是 可 以 识别 那些 跑 得 比 正常 任务 慢 的 任务 , 然后 它 会 产生 
另 一 个 等 效 的 任务 作为 备份 , 并 使 用 首先 完成 的 那个 任务 的 结果 , 此 时 另外 一 个 任务 则 会 被 要 求 
停止 执行 。 这 种 技术 称 为 推测 执行 (speculative execution )。 


Hadoop 默 认 使 用 推测 执行 。 可 以 将 mapreduce .map.speculative 属性 设置 为 false 来 关 
闭 Map 任 务 的 推测 执行 ,关闭 Reduce 的 推测 执行 功能 则 使 用 mapreduce.reduce.speculative 


mapreduce.job.speculative.speculativecap 属 性 指定 了 推测 执行 功能 的 任务 能 够 占 
总 任务 数量 的 比例 , 它 的 取 值 范围 在 O 和 1 之 间 , 默认 值 是 0.1。 利 用 mapreduce.job.speculative. 
slowtaskthreshold 和 mapreduce .job.speculative.slownodethreshold 属性 来 指定 一 
个 任务 比 正 常任 务 慢 多 少时 才 应 该 启动 备份 任务 。 这些 参数 的 度量 使 用 的 是 相对 于 所 有 任务 平均 
进度 的 标准 偏差 ， 默 认 值 是 1。 


2.5 MapReduce 作业 的 计数 器 


计数 器 是 在 作业 层面 收集 统计 信息 , 它 能 帮助 我 们 对 Hadoop MapReduce 的 作业 进行 质量 控制 、 
性 能 监控 和 问题 识别 。 和 日 志 不 同 ， 它 们 生来 就 是 全 局 的 ， 因 此 不 需要 进行 聚合 操作 就 可 以 执行 
分 Tr 操作 。 计数 器 使 用 countercroup 类 进行 逻辑 分 组 ， 并 且 每 个 作业 都 有 一 些 内 置 的 计数 器 。 
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下 面 的 例子 说 明了 如 何 创建 一 个 简单 的 自 定 义 计数 器 。 这 个 例子 实现 的 计数 器 功能 是 将 文件 
的 行 分 为 如 下 三 类 并 统计 它们 的 数量 : 包含 0 个 单词 ， 包 含 1~5 个 单词 ， 以 及 包含 5 个 以 上 单词 。 
当 对 授权 文件 集运 行 这 个 程序 时 ， 得 到 如 下 结果 : 


14/04/13 23:27:00 INFO mapreduce.Job: Counters: 23 
File System Counters 
FILE: Number of bytes read=446021466 
FILE: Number bytes written-114627807 
FILE: Number read operations-0 
FILE: Number large read operations-0 
FILE: Number write operations-0 
HDFS: Number of bytes read-535015319 
HDFS: Number bytes written-52267476 
HDFS: Number read operations-391608 
HDFS: Number large read operations-0 
HDFS: Number of write operations-19536063 
Map-Reduce Framework 
Map input records-27862 
Map output records-27862 
Input split bytes-56007 
Spilled Records-0 
Failed Shuffles-0 
Merged Map outputs-0 
GC time elapsed (ms)=66 
Total committed heap usage (bytes)-262037426176 
MasteringHadoop.MasteringHadoopCounters$WORDS IN LINE COUNTER 
LESS THAN FIVE WORDS-8449 
MORE THAN, FIVE WORDS-19413 
ZERO WORDS-6766 
File Input Format Counters 
Bytes Read-1817707 
File Output Format Counters 
Bytes Written-189102 


第 一 步 是 创建 一 个 计数 器 ， 使 用 计数 器 的 名 字 定 义 一 个 Java 枚 举 类 。 枚 举 类 型 的 名 字 就 是 计 
数 器 的 分 组 ， 如 下 代码 段 所 示 : 


public static enum WORDS, IN LINE COUNTER( 
ZERO, WORDS, 
LESS THAN FIVE WORDS, 
MORE THAN FIVE WORDS 


SD OG OD 
] 


T 


un 
当 遇 到 需要 增加 计数 器 的 情况 时 ， 可 以 在 任务 的 上 下 文 对 象 中 通过 计数 器 的 名 字 调 用 
getCounter () 来 获得 计数 需 ， 计 数 需 支持 在 全 局 范围 内 调用 increment ( ) 方 法 来 增加 计数 需 
的 值 。 


M 
| Q 一 个 应 用 所 使 用 的 自 定义 计数 器 不 应 该 超过 15 到 20 个 。 
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在 任务 上 下 文中 使 用 getcounter () 会 带 来 一 些 额 外 的 负载 。 可 以 在 运行 时 使 用 计数 器 分 组 
和 计数 器 名 字 来 创建 动态 计数 器 ( dynamic counter )。 


在 下 面 的 代码 段 中 ，Mapper 类 演示 了 如 何 基于 文件 中 的 每 一 个 句子 所 包含 单词 的 数量 来 增 
加 woRDS_IN_LINE_COUNTER 分 组 中 的 计数 器 。 


public static class MasteringHadoopCountersMap extends 
Mapper<LongWritable, Text, LongWritable, IntWritable» ( 
private IntWritable countOfWords - new IntWritable(0); 
GOverride 
protected void map(LongWritable key, Text value, 
Context context) throws IOException, 
InterruptedException ( 


StringTokenizer tokenizer - new 
StringTokenizer(value.toString()); 
int words - tokenizer.countTokens(); 
if(words -- 0) 
context.getCounter (WORDS IN LINE COUNTER.ZERO WORDS).increment (1); 
if(words » 0 && words «- 5) 
context.getCounter(WORDS IN LINE COUNTER.LESS THAN FIVE WORDS) 
.increment(1); 
else 
context.getCounter (WORDS IN LINE COUNTER.MORE THAN FIVE WORDS) 
.increment(1); 
countOfWords.set (words); 
context.write(key, countOfWords); 
j 
j 


计数 器 是 在 一 个 分 布 式 环境 中 的 全 局 变量 ， 因 此 必须 慎重 使 用 。 使 用 的 计数 器 的 数量 越 多 ， 
计算 集群 跟踪 它们 需要 的 负载 就 越 大 。 因 此 , 在 实际 应 用 中 , PAE m RRA IER AMEA 
时 使 用 计数 器 。 


2.6 ”数据 连接 的 处 理 

在 大 数据 处 理 过 程 中 ， 连 接 (join) 操作 是 很 常见 的 ， 一 般 针 对 的 是 连接 键 的 值 和 参与 连接 
的 多 个 数据 集 的 数据 类 型 。 本 书 中 , 我们 不 会 侧重 解释 不 同类 型 连接 的 语义 〈 例 如 内 连接 、 外 连 
接 和 交叉 连接 )， 而 是 聚焦 于 MapReduce 中 如 何 使 用 内 连接 以 及 如 何 优化 与 之 相关 的 性 能 。 


在 MapReduce 中 , 连接 可 以 在 Map 任 务 中 完成 , 也 可 以 在 Reduce 任 务 中 完成 。 前 者 被 称 为 Map 
侧 的 连接 ， 后 者 被 称 为 Reduce 侧 的 连接 。 


2.6.1 ”Reduce 侧 的 连接 
Reduce 侧 的 连接 更 加 通用 ， 并 且 不 需要 对 参与 连接 的 数据 集 强加 太 多 的 条 件 。 然 而 ，shuffle 
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步 又 会 需要 非常 多 的 资源 。 


基本 的 原理 是 ， 在 每 条 记录 添加 一 个 标签 指明 数据 的 来 源 ， 并 在 Map 任 务 中 提取 连接 键 。 
Reduce 任 务 收 到 同一 个 连接 键 的 所 有 记录 并 执行 连接 操作 。 如 果 参 与 连接 的 数据 集 非常 小 , 可 以 
通过 一 个 旁 路 通道 (side channel， 例 如 分 布 式 缓存 ) 将 数据 派送 给 每 个 Reduce 任 务 。 


为 了 使 Reduce 侧 的 连接 顺利 进行 ， 需 要 满足 下 面 两 个 要 求 。 


口 对 于 参与 连接 的 不 同 数据 集 ， 需 要 有 一 个 方法 为 它们 指定 InputFormat 和 Mapper 类 。 
MultipleInputs 类 就 是 为 这 个 目的 而 设计 的 。 对 于 比较 小 的 文件 ， 可 以 使 用 分 布 式 组 
ff. ( DistributedCache ) 的 API。 后 面 将 要 说 到 的 Map 侧 的 连接 ， 将 会 展示 如 何 使 用 这 种 旁 
路 文件 系统 。 

口 为 了 最 优化 Reduce 侧 的 连接 ， 二 次 排序 (secondary sorting ) 的 功能 是 必需 的 。 参 与 连接 
的 键 将 会 被 排序 ， 但 是 键 所 在 数据 源 也 应 该 排序 。 通 过 二 次 排序 功能 ， 一 个 源 的 完整 数 
据 紧 接着 男 一 个 源 的 数据 ， 减 少 了 将 源 的 记录 缓存 在 内 存 的 开销 。 

下 面 的 例子 演示 了 Reduce 侧 连接 功能 。 数 据 集 包含 了 世界 各 地 的 城市 以 及 城市 相关 的 信息 ， 
信息 中 包含 国家 编码 。 你 可 以 从 下 面 网 址 获取 一 份 CSV 格 式 的 数据 : http://dev.maxmind.com/ 
geoip/legacy/geolite/。 每 个 国家 有 一 个 由 两 个 字母 组 成 的 ISO 编 码 。countrycodes.txt 文 件 可 以 从 这 
个 网 址 获取 : http://www.spoonfork.org/isocodes.html。 

在 这 个 以 及 随后 的 例子 中 , 连接 键 使 用 的 是 国家 的 ISO 编码 。 使 用 这 个 键 来 获取 国家 的 名 字 ， 
并 累加 这 个 国家 的 城市 人 口 数 ， 得 到 国家 的 人 口 总 数 。 使 用 下 面 的 步骤 完成 连接 操作 。 

(1) 需要 实现 一 个 自 定义 的 Writable 数 据 类 型 从 而 用 键 为 数据 集 打 标 签 。 如 下 的 代码 演示 
了 一 个 组 合 键 的 实现 : 


package MasteringHadoop; 


import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.io.WritableComparable; 
import java.io.DataInput; 

import java.io.DataOutput; 

import java.io.IOException; 


public class CompositeJoinKeyWritable implements WritableComparable«CompositeJoin- 
KeyWritable» ( 


private Text key - new Text(); 
private IntWritable source - new IntWritable(); 


public CompositeJoinKeyWritable()( 
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public CompositeJoinKeyWritable(String key, int source)( 
this.key.set(key); 
this.source.set(source); 


public IntWritable getSource()( 
return this.source; 


public Text getKey()( 
return this.key; 


public void setSource(int source)( 
this.source.set(source); 


public void setKey (String key)t 
this.key.set(key); 


GOverride 

public void write(DataOutput dataOutput) throws IOException ( 
this.key.write(dataOutput); 
this.source.write(dataOutput); 


GOverride 

public void readFields (DataInput dataInput) throws IOException { 
this.key.readFields (dataInput); 
this.source.readFieldàs (dataInput); 


GOverride 

public int compareTo(CompositeJoinKeyWritable o) ( 
int result = this.key.compareTo(o.key); 
if(result == 0)( 

return this.source.compareTo(o.source); 

return result; 

GOverride 

public boolean equals (Object obj)( 
if(obj instanceof CompositeJoinKeyWritable)( 


CompositeJoinKeyWritable joinKeyWritable - 
(CompositeJoinKeyWritable)obj; 
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return (key.equals(joinKeyWritable.key) && source. 
equals(joinKeyWritable.source)); 


) 


return false; BE 
} 
} 


(2) 需要 实现 一 个 自 定义 的 partitioner 类 。partitioner 必 须 只 能 基于 连接 的 原始 键 做 数 
据 分 区 , 也 就 是 国家 的 ISO 编 码 。 这样 保 证 了 同一 个 国家 编码 的 城市 将 被 同一 个 Reduce 任 务 处 理 。 
下 面 的 代码 演示 了 自 定义 的 partitioner 类 的 实现 : 


public static class CompositeJoinKeyPartitioner extends 
Partitioner«CompositeJoinKeyWritable, Text>{ 
GOverride 


public int getPartition(CompositeJoinKeyWritable 
key, Text value, int i) ( 


return (key.getKey().hashCode() $ i); 


) 


(3) 需要 写 一 个 自 定 义 的 分 组 比较 器 (grouping comparator )。 同 分 区 类 一 样 ， 分 组 只 能 基于 
连接 的 原始 键 进行 。 如 下 代码 演示 一 个 组 合 键 的 分 组 比较 吉 的 实现 : 


public static class CompositeJoinKeyComparator extends 
WritableComparator( 


protected CompositeJoinKeyComparator()( 
super(CompositeJoinKeyWritable.class, true); 


Jj 


GOverride 
public int compare (Object a, Object b) ( 


CompositeJoinKeyWritable compositeKeyl1 
(CompositeJoinKeyWritable) a; 
CompositeJoinKeyWritable compositeKey2 
(CompositeJoinKeyWritable) b; 


return compositeKeyl.getKey() 
.compareTo(compositeKey2.getKey()); 


H 
(4) 需要 为 每 种 输入 数据 集 都 写 一 个 Mapper 类 。 下 面 的 例子 中 展现 了 两 个 Mapper 类 : 一 个 
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TE 


为 城市 的 数据 集 ， 另 一 个 为 国家 的 数据 集 。 国 家 的 数据 集 比 城市 的 数据 集 要 少 。 为 了 提高 效率 ， 
当 完 成 数据 集 的 二 次 排序 之 后 ， 一 个 Reduce 中 国家 的 数据 集 应 该 出 现在 城市 的 数据 集 之 前 。 
public static class MasteringHadoopReduceSideJoinCountryMap 


extends Mapper«LongWritable, Text, 
CompositeJoinKeyWritable, Text>{ 


TE 


private static short COUNTRY CODE INDEX 
private static short COUNTRY NAME INDEX 


uo og 
Bee xn 


private static CompositeJoinKeyWritable 
joinKeyWritable - new 
CompositeJoinKeyWritable("", 1); 
private static Text recordValue - new Text(""); 


GOverride 
protected void map(LongWritable key, Text value, 
Context context) throws IOException, 
InterruptedException ( 


String[ ] tokens - value.toString().split(",", -1); 


if(tokens !- null)( 
joinKeyWritable.setKey(tokens[COUNTRY CODE INDEX]); 
recordValue.set(tokens[COUNTRY NAME INDEX]); 
context.write(joinKeyWritable,recordValue); 


public static class 
MasteringHadoopReduceSideJoinCityMap extends 
Mapper«LongWritable, Text, 
CompositeJoinKeyWritable, Text»í( 


private static short COUNTRY CODE INDEX = 0; 


private static CompositeJoinKeyWritable 
joinKeyWritable - new 
CompositeJoinKeyWritable("", 2); 
private static Text record - new Text(""); 


GOverride 
protected void map(LongWritable key, Text value, 
Context context) throws IOException, 
InterruptedException ( 


String[] tokens - value.toString().split(",", -1); 


if(tokens !- null)( 
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joinKeyWritable.setKey (tokens [COUNTRY_CODE_INDEX]); 
record.set (value.toString()); 
context.write(joinKeyWritable, record); 


| au 
j 


(5) Reducer 类 利用 了 二 次 排序 的 优点 产生 连接 后 的 数据 。 和 迭代 器 的 第 一 个 值 是 国家 的 数据 ， 
国家 的 名 字 保 存 了 下 来 ， 并 且 基 于 其 他 数据 计算 这 个 国家 的 人 口 数量 。 


public static class MasteringHadoopReduceSideJoinReduce 
extends 
Reducer<CompositeJoinKeyWritable, Text, Text, 
LongWritable>{ 


private static LongWritable populationValue = new LongWritable(0); 
private static Text countryValue - new Text(""); 
private static short POPULATION INDEX - 4; 


GOverride 
protected void reduce(CompositeJoinKeyWritable key, 
Iterable«Text» values, Context context) throws 
IOException, InterruptedException { 


long populationTotal = 0; 
boolean firstRecord = true; 
String country = null; 


for (Text record : values) { 


String[] tokens = 
record.toString().split(",", -1); 
if(firstRecord)t 
firstRecord - false; 
if(tokens.length » 1) 
break; 
else 
country - tokens[0]; 
) 
elset 
String populationString - 
tokens[POPULATION INDEX]; 


if(populationString !- null && 
populationString.isEmpty() -- 
false)t 


populationTotal += 
Long.parseLong(populationString); 
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if(country !- null)( 
populationValue.set (populationTotal); 
countryValue.set(country); 
context.write(countryValue, 
populationValue); 


) 
(6) 动 程序 需要 指定 所 有 Reduce 侧 连接 需要 的 自 定义 数据 类 型 。 


public static void main(String args[]) throws 
IOException, InterruptedException, ClassNotFoundException(í 


GenericOptionsParser parser - new 
GenericOptionsParser(args); 
Configuration config - parser.getConfiguration(); 


String[ ] remainingArgs - parser.getRemainingArgs(); 

Job job = Job.getInstance(config, "MasteringHadoop ReduceSideJoin"); 
job.setMapOutputKeyClass(CompositeJoinKeyWritable.class); 
job.setMapOutputValueClass (Text.class); 

job.setOutputKeyClass (Text.class); 
job.setOutputValueClass(LongWritable.class); 

job.setReducerClass (MasteringHadoopReduceSideJoinReduce.class); 
job.setPartitionerClass(CompositeJoinKeyPartitioner.class); 
job.setGroupingComparatorClass(CompositeJoinKeyComparator.class); 
job.setNumReduceTasks (3) ; 


MultipleInputs.addInputPath(job, new 
Path(remainingArgs[0]), TextInputFormat.class, 
MasteringHadoopReduceSideJoinCountryMap.class); 

MultipleInputs.addInputPath(job, new 
Path(remainingArgs[1]), TextInputFormat.class, 
MasteringHadoopReduceSideJoinCityMap.class); 


job.setOutputFormatClass (TextOutputFormat.class); 
TextOutputFormat.setOutputPath(job, new Path(remainingArgs[2])); 


job.waitForCompletion(true); 


2.6.2 ”Map 侧 的 连接 
与 Reduce 侧 的 连接 不 同 ，Map 侧 的 连接 需要 等 待 参与 连接 的 数据 集 满足 如 下 任 一 条 件 。 
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口 除了 参与 连接 的 键 外 ， 所 有 的 输入 都 必须 按照 连接 键 排序 。 输 入 的 各 种 数据 集 必 须 拥 有 
相同 的 分 区 数 ; 所 有 具有 相同 键 的 记录 需要 放 在 同一 个 分 区 中 ; 当 Map 任 务 对 其 他 
MapReduce 作 业 的 结果 进行 处 理 时 ，Map 侧 的 连接 格外 具有 吸引 力 ,， 因 为 这 种 情况 下 上 述 
的 条 件 就 自动 满足 了 。compositeInputFormat 类 用 于 执行 Map 侧 的 连接 ， 而 输入 和 连 
接 类 型 的 配置 可 以 通过 属性 来 指定 。 

口 如 果 其 中 的 一 个 数据 集 足 够 小 , 旁 路 的 分 布 式 通道 ( 例如 分 布 式 缓存 ) 可 以 用 在 Map 侧 的 
连接 中 。 

在 下 面 的 例子 中 ， 国 家 相关 的 文件 分 布 在 所 有 的 节点 上 。 在 Map 任 务 启动 的 过 程 中 ， 这些 文 

件 被 nzeeMap 数 据 结果 加 载 到 内 存 中 。Mapper 类 中 的 setup ( ) 方法 被 重 载 从 而 能 够 将 较 小 的 数据 
放 到 内 存 中 : 


package MasteringHadoop; 


org.apache.hadoop.conf.Configuration; 
org.apache.hadoop.fs.FSDataInputStream; 


impor 
impor 


import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 

import org.apache.hadoop.util.LineReader; 

import java.io.IOException; 

import java.net.URI; 

import java.net.URISyntaxException; 


import java.util.TreeMap; 
public class MasteringHadoopMapSideJoin { 


public static class MasteringHadoopMapSideJoinMap extends 
Mapper«LongWritable, Text, Text, LongWritable» ( 


private static short COUNTRY CODE INDEX 
private static short COUNTRY NAME INDEX 
private static short POPULATION INDEX - 4; 


uod 
FX 


private TreeMap«String, String» countryCodesTreeMap = new 
TreeMap«String, String»(); 

private Text countryKey - new Text(""); 

private LongWritable populationValue - new LongWritable(0); 


GOverride 
protected void setup(Context context) throws 
IOException, InterruptedException ( 
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URI[] localFiles = context.getCacheFiles(); 


String path - null; 
for(URI uri : localFiles)( 
path - uri.getPath(); 
if(path.trim().equals("countrycodes.txt"))( 
break; 


if(path !- null)( 
getCountryCodes (path, context); 


} 


如 下 所 示 的 私有 方法 getcountrycodes () 用 于 从 旁 路 分 布 式 缓存 中 读 取 文件 ， 然 后 逐 行 处 
理 并 保存 在 TreeMap 实 例 中 。 这 个 方法 也 是 Mapper 类 的 一 部 分 : 


private void getCountryCodes (String path, Context context) 
throws IOExceptiont 


Configuration configuration = context.getConfiguration(); 
FileSystem fileSystem - FileSystem.get(configuration); 
FSDataInputStream in - fileSystem.open(new Path(path)); 
Text line - new Text(""); 

LineReader lineReader - new LineReader(in, configuration); 


int offset - 0; 


dot 
offset - lineReader.readLine(line); 
if(offset > O)( 
String[] tokens - line.toString().split(",", -1); 
countryCodesTreeMap.put(tokens[COUNTRY CODE INDEX], 
tokens[COUNTRY NAME INDEX]); 
j 
)while(offset !- 0); 


} 


连接 操作 是 发 生 在 Mapper 类 的 map ( ) 方 法 中 。 每 个 键 都 会 在 对 应 的 TreeMap 数 据 结果 中 做 匹 
配 检 查 ， 如 果 匹 配 ， 就 会 产生 连接 记录 : 


GOverride 
protected void map(LongWritable key, Text value, Context 
context) throws IOException, InterruptedException ( 


String cityRecord - value.toString(); 
String[] tokens = cityRecord.split(",", -1); 
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String country - tokens[COUNTRY CODE INDEX]; 
String populationString - tokens[POPULATION INDEX]; 


if(country !- null && country.isEmpty() == false)( 
if(populationString !- null && 
populationString.isEmpty() -- false)( 


long population = Long.parseLong(populationString); 
String countryName - countryCodesTreeMap.get (country); 


if(countryName -- null) countryName - country; 
countryKey.set(countryName); 


populationValue.set (population); 
context.write(countryKey, populationValue); 


) 
Reduce 任 务 很 简单 , 它 基于 国家 编码 这 个 键 聚 , 合并 计算 一 个 国家 的 总 人 口 , 如 下 列 代码 所 示 : 


public static class MasteringHadoopMapSideJoinReduce extends 
Reducer«Text, LongWritable, Text, LongWritable»( 


private static LongWritable populationValue - new LongWritable(0); 
GOverride 
protected void reduce(Text key, Iterable«LongWritable» 

values, Context context) throws IOException, InterruptedException ( 


long populationTotal - 0; 


for(LongWritable population : values)( 
populationTotal += population.get(); 


} 
populationValue.set (populationTotal); 
context.write(key, populationValue); 


2.7 小 结 


本 章 ， 我 们 看 到 Hadoop MapReduce 工 作 链 上 的 不 同 阶段 的 优化 方法 。 在 连接 的 例子 中 ,我 
们 看 到 MapReduce 作 业 的 其 他 高 级 特性 。 本 章 学 到 的 主要 内 容 如 下 。 


Q 应 该 避免 生成 太 多 依赖 于 IO 的 Map 任 务 ， 且 Map 任 务 的 数量 是 由 输入 决定 的 。 
口 作业 的 加 速 主要 源 于 Map 任 务 ， 因 为 它们 有 更 高 的 并 行 度 。 
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口 Combiner 对 效率 的 提高 , 不 仅 体 现在 Map 任 务 和 Reduce 任 务 之 间 的 数据 传输 , 而 且 体 现在 
降低 了 Map 侧 的 VO 负载 。 

口 默认 设置 下 只 有 一 个 Reduce 任 务 。 

口 自 定义 的 分 区 絮 可 以 在 不 同 的 Reduce 之 间 做 负载 均衡 。 

口 分 布 式 缓存 对 于 小 文件 场景 是 很 有 用 的 ， 但 应 该 避免 过 多 或 过 大 的 文件 存储 在 缓存 中 。 
a 自 定 义 的 计数 器 可 以 用 来 跟踪 全 局 级 别 的 统计 ， 但 不 应 过 多 使 用 。 

D 应 该 更 经 常 使 用 压缩 。 不 同 的 压缩 编码 有 不 同 的 考量 ， 但 是 哪 种 压缩 编码 合适 却 是 取决 
于 应 用 的 。 

口 Hadoop 有 很 多 可 以 调整 的 配置 项 来 优化 作业 的 执行 。 

口 应 该 避免 使 用 不 成 熟 的 优化 方法 ， 而 内 置 的 计数 器 是 你 的 得 力 助手 。 

口 推荐 使 用 像 Pig 或 Hive 这 样 的 高 阶 抽象 功能 代替 原生 的 Hadoop 作 业 。 

在 下 一 章 ， 我们 将 探讨 Pig 一 一 Hadoop 中 使 用 脚本 编辑 MapReduce 作 业 的 框架 。Pig 提 供 了 高 


级 的 关系 型 操作 ， 这 样 用 户 不 需要 使 用 Java 代 码 编写 低级 的 MapReduce， 就 可 以 实现 对 数据 的 转 
换 功 能 。 


第 3 章 


Pig 进 阶 


在 Hadoop 上 运行 Java MapReduce 作 业 ， 以 最 少 的 抽象 概念 提供 了 最 大 的 灵活 性 。 然而 ， 抽 
象 对 于 推断 模式 、 完 成 日 常 的 数据 操作 任务 、 降 低 复杂 性 和 扁平 化 学 习 曲 线 来 说 仍 是 必要 的 。 而 
Pig 就 提供 了 这 样 一 个 框架 以 及 高 级 抽象 ， 可 以 在 Hadoop 上 创建 MapReduce 程 序 。 它 包含 一 种 称 
为 Pig Latin 的 脚本 语言 。 就 操作 符 的 功能 而 言 ，Pig Latin 可 以 跟 SQL 相 媲美 。 


Pig 由 


EE 虎 于 2006 年 左右 开发 ， 当 时 作为 一 个 框架 用 于 指定 特别 的 MapReduce 工 作 流 。 次 年 ， 


被 迁移 到 Apache 软 件 基 金 会 。 最 新 的 发 布 版 是 0.12.1。 


3 


目前 ，Pig 的 正式 发 布 和 Hadoop 2.2.0 不 兼容 。 它 会 从 Hadoop 1.2.1 中 寻找 库 


文件 。 运 行 任 何 Pig 脚 本 都 会 失败 ， 并 抛 出 下 面 的 异常 : 


Unexpected System Error Occured: 
java.lang.IncompatibleClassChangeError: Found interface 
org.apache.hadoop.mapreduce.JobContext, but class was expected. 


修复 这 个 问题 需要 重新 编译 Pig 的 二 进 制 文件 。 运 行 下 面 的 命令 ， 然 后 改 用 


3T EN pig jarfepig-withouthadoop.jar 3 4T : 


ant clean jar-all -Dhadoopversion-23 


本 章 ， 我 们 将 通过 以 下 内 容 来 看 看 Pig 的 高 级 特性 。 


Q 与 SQL 相 比 ，Pig 有 何不 同 。 
口 分 析 Pig Latin 脚 本 如 何 被 转 成 MapReduce 程 序 。 


O 深入 研究 Pig 支 持 的 高 级 关系 操作 符 ; 我 们 将 深入 了 解 这 些 关 系 操作 符 ， 并 通过 实例 来 看 
一 下 它们 的 应 用 程序 。 
a 学 习 如 何 扩展 Pig 现 有 的 功能 : 使 用 用 户 定义 函数 (UDF ) 可 以 实现 多 种 接口 ， 我 们 将 仔 


细 研 究 其 中 的 一 些 接 口 。 
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3.4 Pig 对 比 SQL 


SQL 是 一 种 非常 流行 的 查询 和 数据 处 理 语言 。 任何 用 于 数据 处 理 的 高 级 语言 都 应 该 与 SQL 对 
比 一 下 。 在 本 节 中 ， 我 们 将 比较 Pig Latin 和 SQL。 对 比 的 结果 如 下 所 示 。 


O Pig Latin 基 本 上 可 以 算是 一 种 过 程 化 语言 。 相 反 ，SQL 实 际 上 是 一 种 声明 式 语言 。 在 SQL 
中 ,数据 转换 发 生 时 不 需要 数据 管道 ， 然 而， 在 Pig Latin 中 ， 数 据 管道 中 的 每 一 步 数据 转 
换 都 是 有 序 的 。 在 SQL 中 可 以 通过 使 用 中 间 临 时 表 来 模拟 这 种 行为 , 但 是 创建 、 管理 和 清 
理 这 些 中 间 表 却 是 一 件 又 麻烦 又 容易 犯错 的 事 。 尽管 Pig Latin 脚 本 是 过 程 化 的 , 但 语句 却 
是 懒惰 执行 ， 也 就 是 说 ， 直 到 真正 需要 某 个 值 的 时 候 ， 相 应 的 语句 才 会 被 执行 。 

口 开发 者 使 用 像 SQL 这 样 的 声明 式 语句 书写 数据 流 时 ,会 过 度 地 依赖 于 查询 优化 器 来 为 数据 
转换 步 又 选择 正确 的 实现 。SQL 引 擎 确实 能 够 提供 帮助 , 但 不 具有 选择 的 灵活 性 , 或 者 说 
是 添加 插件 的 能 力 。 而 Pig Latin 天 生 带 有 这 种 灵活 性 。 

口 SQL 是 一 种 理想 的 线性 数据 流 一 一 转换 产生 一 个 单一 的 结果 集 。 然而 , 数据 流通 常 是 有 向 
AKA (DAG), 常见 的 操作 是 将 数据 分 割 成 流 ， 在 每 个 流 上 应 用 不 同 的 转换 函数 ， 然 后 
再 将 这 些 流连 接 起 来 。 要 在 SQL 上 实现 DAG 则 需要 重复 操作 或 是 物化 中 间 结 果 。 而 Pig 由 
于 物化 了 中 间 结 果 ， 所 以 能 够 通过 减少 磁盘 的 读 写 次 数 来 有 效 地 处 理 数据 流 的 DAG。 

O SQL 不 是 一 个 抽取 -转换 -加 载 (ETL ) 工 具 , 它 只 作用 于 那些 已 经 在 数据 库 中 存在 的 数据 。 
Pig 为 UDF 提 供 了 便捷 ， 用 户 可 以 在 数据 流 中 自 定义 Java 代 码 。 它 考虑 到 流 的 情况 ， 也 就 
是 说 ， 在 数据 流 中 可 以 随意 插入 可 执行 的 代码 。 而 流 有 助 于 重用 数据 流 管道 中 现 有 的 工 
具 和 代码 。Pig 的 这 些 特性 使 它 成 为 一 个 多 用 途 的 平台 ， 不 需要 为 了 ETL 和 数据 处 理 分 别 

使 用 不 同 的 工具 。 

口 Pig 过 程 化 的 特性 允许 它 在 数据 管道 处 理 过 程 中 在 任意 点 存储 数据 。 这 有 助 于 手动 引入 检 
查 点 ， 并 且 当 发 生 故 障 时 ， 也 不 必 从 头 开 始 执行 整个 查询 。 对 于 大 数据 的 处 理 ， 这 一 点 

显得 格外 重要 , 因为 数据 加 载 和 处 理 的 时 间 特 别 长 。SQL 没 有 赋予 开发 者 对 这 项 功能 的 控 

制 权 ， 它 很 有 可 能 需要 重新 执行 查询 中 最 花 时 间 的 部 分 。 


3.2 不 同 的 执行 模式 

Pig 有 以 下 三 种 执行 模式 。 
口 交互 式 模式 : 在 这 种 模式 中 ， 用 户 可 以 利用 一 个 叫 作 grunt 的 外 壳 程 序 ( shell )。 用 户 可 以 
在 一 个 连接 Pig 和 Hadoop 集 群 的 交互 式 会 话 中 ， 输 入 Pig 命 令 。 
口 批 处 理 模式 : 在 这 种 模式 中 ， 用 户 可 以 在 一 个 脚本 文件 中 书写 一 系列 的 Pig 语 句 ， 然 后 提 
交 、 执 行 这 个 文件 。 
O 嵌入 式 模式 : 在 这 种 模式 中 , 通过 导入 Pig 的 库 文件 , 可 以 在 任何 Java 程 序 中 调用 Pig 命 令 。 
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除了 这 几 种 执行 模式 以 外 ，Pig 还 可 以 在 本 地 的 执行 环境 中 以 本 地 模式 执行 ， 或 者 在 Hadoop 
集群 的 执行 环境 中 以 mapreduce 模 式 执 行 。 在 本 地 模式 下 ， 所 有 的 命令 利用 本 地 文件 系统 在 单一 
的 环境 中 执行 。 如 果 不 带 -x 人 参数 ,Pig 默 认 以 mapreduce 模 式 运行 。 如 果 指 定 -x 参 数 , 用 户 可 以 选 
择 运 行 本 地 模式 还 是 mapreduce 模 式 ， 并 使 用 相关 的 执行 环境 。 环境 变量 HADOOP_CONF_DIR 就 是 
用 来 指定 Pig 在 哪个 Hadoop 集 群 上 运行 MapReduce 作 业 。 


下 面 的 代码 演示 了 如 何以 本 地 或 mapreduce 模 式 运行 Pig 脚 本 : 


pig -x local ,i 
pig -x mapreduce .. OR pig .. 


3.3 Pig 的 复合 数据 类 型 


Pig 的 原生 数据 类 型 有 int、 long, float, double, chararray 及 bytearray 等 。 此 外 ， 
Pig 也 支持 复合 数据 类 型 。 使 用 这 些 复合 数据 类 型 ， 可 以 指定 Pig 关 系 操 作 符 的 输入 及 输出 。 在 某 
些 场合 下 ， 操 作 符 的 行为 取决 于 它 所 使 用 的 复合 数据 类 型 。 这 些 复 合 数据 类 型 如 下 。 


O Map: 不 要 将 这 种 数据 类 型 与 MapReduce 中 的 map 函 数 相 混 请 。Map 数 据 类 型 是 一 种 关联 数 
据 类 型 ， 它 保存 chararray 类 型 的 键 (key) 及 相应 的 值 (value )。map 中 ， 值 的 数据 类 型 
并 没有 限制 , 它 也 可 以 是 一 个 复合 数据 类 型 。 如 果 无 法 指定 值 的 类 型 ,Pig 就 会 将 其 默认 为 
bytearray 数 据 类 型 。 键 和 值 的 关联 通过 符号 # 完 成 。map 中 的 键 值 必须 是 唯一 的 : 


[keystvalue, keyl#valuel...] 

口 Tuple: Tuple 数 据 类 型 是 一 组 数据 值 的 集合 。 它 们 长 度 固定 且 有 序 。 它 们 就 好 比 是 SQL 表 
中 的 一 条 记录 ， 只 是 对 列 的 类 型 并 没有 什么 限制 。 每 个 数据 值 被 称 为 字段 ( field )。 由 于 
值 是 按 序 排列 ， 因 此 可 以 在 tuple 中 随机 访问 某 个 值 : 


(valuel, value2, value3..) 

O Bag: Bag 数 据 类 型 是 ple 和 其 他 bag 的 容器 。 它 们 是 无 序 的 ， 也 就 是 说 无 法 随机 访问 一 个 
bag 中 的 某 个 tuple 或 bag。 对 于 包含 在 bag 中 的 tuple， 它 的 结构 是 没有 限制 的 。 男 外 ， 一 个 
bag 中 允许 出 现 重复 的 tuple 或 是 bag: 


{ (tuple1) , (tuple2) .) 


y Pig 中 的 Bag 数 据 类 型 可 以 溢出 保存 到 磁盘 中 ， 这 样 它 就 可 以 拥有 数量 庞大 
Q 的 tbple， 而 无 需 顾 虑 内 存 的 限制 。 但 Map 和 Tuple 数 据 类 型 不 属于 这 种 情况 。 
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3.4 编译 Pig 脚本 


Pig 的 架构 被 设计 成 分 层 结构 ， 这 有 利于 插件 式 的 执行 引擎 。Hadoop 的 MapReduce 作 为 一 个 
执行 平台 ， 就 像 插件 一 样 被 加 载 到 Pig 中 。 编 译 和 执行 Pig 脚 本 有 三 个 主要 阶段 : 准备 逻辑 计划 ， 
将 它 转 成 物理 计划 ， 最 后 ， 将 物理 计划 编译 成 MapReduce 计 划 ， 这 样 就 可 以 在 相应 的 执行 环境 中 


运行 。 


3.4.1. 逻辑 计划 


Pig 首 先 会 解析 语句 的 语法 错误 , 同时 验证 输入 文件 和 输入 的 数据 结构 。 如 果 有 模式 ( schema ) 
存在 , 那么 本 阶段 还 会 进行 类 型 检查 。 然 后 生成 一 个 DAG 的 逻辑 计划 , DAG 中 的 节点 是 操作 符 ， 
边 是 数据 流 。 逻辑 计划 是 不 能 执行 的 , 它 并 不 知道 执行 层 。 本 阶段 还 会 基于 内 置 的 规则 进行 优化 。 
其 中 一 些 规 则 我 们 会 在 稍 后 讨论 。 逻 辑 计 划 与 有 效 的 操作 符 一 一 对 应 。 在 下 面 的 脚本 中 ,两 个 文 
本 文件 作为 数据 输入 ,被 加 载 并 保存 到 Pig 的 变量 中 ,这 也 被 称 为 关系 ( relation )。 两 组 输入 的 数 
据 经 历 诸如 空 值 过 滤 ( filter )、 连 接 (join) 等 转换 ， 最 终 根据 连接 键 (join key ) 被 分 组 和 聚合 。 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 

ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 

region:int, population:long, lat:double, long:double) ; 

filteredCcity - filter ccity by population is not null; 

joinCountry - join cc by ccode, ccity by ccode; 

generateRecords - foreach joinCountry generate cc::cname, 
CCity::cityName, ccity::population; 

groupByCountry - group generateRecords by cname; 

populationByCountry - foreach groupByCountry generate group, 
SUM (generateRecords.population) ; 


下 图 表明 了 上 述 脚本 的 逻辑 计划 : 
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加 载 


countrycodes.txt 


加 载 


countrycodes.txt 


加 载 


countrycodes.txt 


Local Rearrange 


Global Rearrange 


Package 


Local Rearrange 


Global Rearrange 


Package 


Foreach 


逻辑 计划 物理 计划 


加 载 
worldcitiespop.txt 


Pig 脚 本 的 逻辑 计划 和 物理 计划 


3.4.2 ”物理 计划 


物理 计划 使 Pig 的 编译 过 程 开始 感知 到 执行 平台 。 在 本 阶段 中 ， 每 一 个 操作 符 被 转换 成 执行 
的 物理 形态 。 比 如 说 MapReduce 框 架 ， 除 了 少数 几 个 操作 符 以 外 ， 大 多 数 都 可 以 和 物理 计划 一 一 
对 应 。 除 逻辑 操作 符 以 外 , 还 有 几 个 物理 操作 符 : Local Rearrange (LR )、Global Rearrange ( GR )、 


和 Package ( P) 操作 符 。 


像 GROUP、COGROUP 或 是 JOIN 这 样 的 逻辑 操作 符 ， 会 被 转换 成 有 序 的 LR、GR 和 P 操 作 符 ， 


上 图 中 也 已 经 表明 了 这 一 点 。LR 操 作 符 对 应 洗 牌 的 准备 阶段 ， 将 数据 按键 进行 分 


区 。GR 操 作 符 


对 应 Map 和 Reduce 任 务 之 间 真 正 的 洗 牌 操作 。P 操 作 符 则 是 Reduce 过 程 中 的 分 区 操作 符 。 
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3.4.8 MapReduceitXI 


Pig 编 译 过 程 中 的 最 后 一 个 阶段 是 将 物理 计划 编译 成 真实 的 MapReduce 作 业 。 物 理 计划 中 的 
LR 、GR 和 P 操 作 符 组 成 的 序列 至 少 需要 一 个 Reduce 任 务 。 编 译 器 也 会 寻找 机 会 在 合适 的 地 方 添 
加 一 些 Combiner。 上 图 中 的 脚本 转换 成 MapReduce 计 划 后 将 会 有 两 个 MapReduce 作 业 ， 一 个 对 应 
逻辑 计划 中 的 JoIN 操 作 符 ， 另 一 个 则 对 应 GROUP 操作 符 。 下 图 表明 了 上 述 脚 本 所 对 应 的 
MapReduce 计 划 。 对 应 GROUP 操作 符 的 MapReduce 任 务 中 多 了 一 个 Combiner。 必 须要 说 明 的 是 ， 
GROUP 操作 发 生 在 Map 任 务 中 。 这 是 因为 下 图 中 Reducel 的 输出 将 按键 做 排序 。 


Countrycodes.txt 


filteredCcity Map 1 
Worldcitiespop.txt 
4 
M —————À 
generateRecords Reduce 1 
L p 
d v 
MapReduce 计划 groupByCountry Map 2 
是 J 
Pe, 
groupByCountry Combiner 2 
a x ^ 
populationBy Country Reduce 2 


 —— 


3.5 开发 和 调试 助手 
有 三 个 重要 的 命令 可 以 帮助 我 们 开发 ， 调 试 及 优化 Pig 脚 本 。 


3.5.1 DESCRIBE 命令 


DESCRIBE 命 令 会 显示 一 个 关系 的 模式 ( schema )。 当 你 是 Pig Latin 的 初学 者 ， 或 是 想 要 了 人 解 
操作 符 是 如 何 转 换 数据 时 , 会 发 现 这 个 命令 很 有 用 。 上 述 脚 本 中 的 groupBycountry (用 来 找 出 
每 个 国家 的 人 口 数 ) 所 对 应 的 输出 是 : 
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groupByCountry: (group: chararray,generateRecords: ( (cc::cname: 
chararray,ccity::cityName: chararray,ccity::population: long) )) 


DESCRIBE 命 令 的 输出 同样 符合 Pig 的 语法 。 在 前 面 的 例子 中 ，groupByCountry 是 Bag 数 据 
类 型 ， 它 包含 一 组 元 素 和 男 一 个 bag: generateRecords。 


3.5.2 EXPLAINS 


对 于 一 个 关系 ，EXPLAIN 命 令 会 显示 Pig 脚 本 将 如 何 执行 。 当 我 们 试 着 去 优化 Pig 脚 本 或 是 ; 
试 错误 时 ， 它 会 很 有 帮助 。 它 会 显示 一 个 关系 的 逻辑 计划 、 物 理 计划 及 MapReduce 计 划 。 下 面 和 
截屏 显示 的 就 是 当 我 们 对 populationByCountry 执 行 EBXPLAIN 命 令 时 ， 第 二 个 MapReduce 作 | 
(对 应 GROUP 操作 符 ) 的 MapReduce 计 划 。 你 可 以 使 用 EXPLAIN 命 令 去 学 习 针 对 各 种 计划 所 采 上 有 
的 优化 。 


8 


cr 


TB 


3.5.8 ILLUSTRATES 


ILLUSTRATE 命 令 也 许 是 最 重要 的 开发 助手 了 。 当 你 对 一 个 关系 使 用 ILLUSTRATE 命 令 时 ， 
它 会 给 出 一 些 样 本 数据 ， 然 后 你 可 以 在 这 些 样 本 数据 上 做 查询 ， 这 可 以 节省 大 量 的 调试 时 间 。 样 
品 数据 要 比 实际 数据 小 很 多 ， 这 样 ， 编 码 -测试 -调试 周期 就 变 得 非常 快 。 在 很 多 情况 下 ，JoOI 
或 FILTER 操 作 符 并 不 会 产生 输出 , 这 时 候 ILLUSTRATE 会 制造 一 些 流 经 这 些 操 作 符 的 记录 , 并 将 
它们 放 进 样本 数据 集中 。 下 面 的 截屏 显示 的 是 对 populationByCountry 关 系 执行 TLLUSTRATE 
命令 后 的 部 分 结 


3.6 Pig 操作 符 的 高 级 特性 


在 本 节 中 ， 我 们 将 研究 一 些 Pig 操 作 符 的 高 级 特性 及 有 用 的 提示 。 


3.6.1 ”FOREACH 操 作 符 进 阶 


FOREACH 操 作 符 主要 用 于 将 输入 关系 的 每 一 条 记录 转换 成 别 的 记录 。 表达 式 列表 被 用 来 做 这 
个 转换 操作 。 在 某 些 情况 下 ，FOREACH 操 作 符 会 增加 输出 数据 的 记录 条 数 。 我 们 会 在 后 面 的 部 分 
中 讨论 这 些 内 容 。 


1. FLATTEN 操 作 符 


FLATTEN 关 键 字 是 一 个 操作 符 , 不 过 它 在 语法 上 看 起 来 像 一 个 UDF。 它 是 用 来 解 套 ( un-nest ) 
那些 般 套 的 tuple 和 bag 的 。 然 而 当 解 套 分 别 作 用 在 tuple 和 bag 上 时 ,语义 却 是 不 同 的 。 


如 下 面 的 代码 片段 所 示 ， 当 对 一 个 般 套 的 tuple 运 用 FLATTEN 时 , 会 产生 一 个 单一 的 tuple。 所 
有 的 向 套 tuple 都 会 被 提升 到 最 高 级 别 。 


思考 一 下 下 面 的 数据 : 


( (2, 3, 4) ) 
X = FOREACH A GENERATE $0, FLATTEN ($1) ; 


这 会 产生 一 个 (1,2,3,4) 的 tuple。 
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对 于 bag， 人 情况 就 更 加 复杂 了 。 当 我 们 解 套 一 个 bag 时 ,会 产生 新 的 tuple。 假 设 我 们 有 一 个 由 
tuple 组 成 的 bag 关 系 ( { (b,c)，, (qd,e)})， 然 后 我 们 对 它 做 CENERATE FLATTEN ($0) 操作 ， 最 
后 我 们 会 得 到 两 个 tuple，(b,c) 和 (qd,e)。 换 句 话说 ，FLATTEN 做 了 一 次 交叉 乘积 ，bag 中 的 每 一 
元 素 都 会 产生 一 行 记录 。 


让 我 们 以 worldcitiespop.txt 作 为 一 个 例子 来 看 一 下 : 


Lj 


T 


cCity = load 'worldcitiespop.txt' using PigStorage(',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double); 
groupCcityByCcode - group cCity by ccode; 
groupCcityByCcode EJ E f —^4-&rtuplelixEbag, W FMR, tuplef]4- XI T- 
group 的 个 数 ， 在 这 个 例子 中 即 为 国家 的 个 数 : 


(ae, { (ae,ae,sharjah,Sharjah,6,543942,25.35731,55.403304) 
(ae,ae,dubai,Dubai,3,1137376,25.258172,55.304717) )) 


FLATTEN 操 作 符 可 以 将 它们 解 套 ， 对 于 指定 的 国家 ， 每 个 城市 生成 一 条 记录 ， 代 码 如 下 : 


unGroupCcityByCcode = foreach groupCcityByCcode generate group, 
FLATTEN (cCity) ; 


il Ébag'h HAIR- FL ZO VRB HO SE SURE BAS RE : 


(ae,ae,sharjah,Sharjah,6,543942,25.35731,55.403304) 
(ae,ae,dubai,Dubai,3,1137376,25.258172,55.304717) 


邮 


对 空 的 误 套 bag 和 tuple 运 用 FLATTEN 操 作 符 不 会 产生 输出 。 这 是 因为 ， 在 数 
M 学 上 ， 一 个 非 空 的 集合 与 一 个 空 的 集合 做 交叉 乘积 后 会 得 到 一 个 空 的 集合 。 如 
果 你 并 不 希望 得 到 这 样 的 结果 ， 最 好 的 办 法 是 用 一 个 常量 bag 取 代 空 的 bag 和 

tuple。 


2. R EFOREACHIR ETS 


关系 操作 符 可 以 应 用 在 FoREAcH 操 作 符 的 每 一 条 记录 上 o XER N k E FOREACH IR N 
FOREACH 操 作 符 。 让 我 们 通过 worldcitiespop.txt 文 件 上 的 一 个 例子 来 研究 一 下 。 我 们 想 找 出 每 个 
国家 人 口 最 多 的 那个 城市 的 详细 信息 。 有 很 多 方法 可 以 解决 这 个 问题 ， 但 这 次 我 们 将 使 用 能 套 
FOREACH 操 作 符 ， 代 码 如 下 : 


ccity = load 'worldcitiespop.txt' using PigStorage(',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double); 
groupCcityByCcode - group cCity by ccode; 
cityWithHighestPopulation = foreach groupCcityByCcode { 
citiesWithPopulation - filter cCity by (population is 
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not null AND population > 0) ; 
orderCitiesWithPopulation - order citiesWithPopulation by 
population desc; 
topPopulousCity - limit orderCitiesWithPopulation 1; 
generate flatten (topPopulousCity) ; }; 


具体 步骤 如 下 。 
(1) 第 一 步 是 基于 一 种 模式 (schema ) 加 载 worldcitiespop.txt 文 件 。 


Q) 然后 ， 通 过 国家 编号 将 数据 分 组 。 下 一 句 就 是 角 套 FOREACH 操 作 符 了 。 花 括号 ({ ) 语法 
don EronEACHIMERT o 


(3) TERCERA TP. KKRT Hoag. 


(a) FILTER 操 作 符 用 来 剔除 每 个 国家 中 那些 缺少 人 口 值 的 城市 。 另 一 种 更 有 效 的 方法 是 
在 FOREACH 操 作 符 之 前 先 做 过 滤 (参见 3.9 节 )。 在 这 个 例子 中 ， 我 们 在 般 套 FOREACH 操 


作 符 里 面 做 过 滤 。 
(b) 过 滤 后 的 城市 bag, 通过 ORDER 操作 符 , 按 城市 人 口 的 降序 进行 了 排序 。 现 在 第 一 条 记 
录 是 人 口 最 多 的 城市 了 。 


(c) 我 们 用 LIMIT 操 作 符 来 选择 第 一 条 记录 。 
(d) 向 套 FOREACH 操 作 符 的 最 后 一 名 语句 往 往 是 GENERATE 方 法 。 这 一 步 ， 生 成 了 人 口 最 
多 城市 的 记录 。FLATTEN 操 作 符 用 来 解 套 pag。 


最 终 输出 的 结尾 部 分 内 容 如 下 : 


uz,tashkent,Tashkent,13,1978078,41.3166667,69.25) 
vc,kingstown,Kingstown,4,17995,13.1333333,-61.2166667) 
ve,maracaibo,Maracaibo,23,1948269,10.6316667,-71.6405556) 
vg,road town,Road Town,0,8449,18.4166667,-64.6166667) 
vn,ho chi minh city,Ho Chi Minh City,20,3467426,10.75,106.666667) 
vu,vila,Vila,8,35903,-17.7333333,168.3166667) 
wf,alele,Alele,0,901,-13.2333333,-176.15) 
ws,apia,Apia,0,40407,-13.8333333,-171.7333333) 
ye,aden,Aden,2,550744,12.7794444,45.0366667) 
yt,mamoudzou,Mamoudzou,0,54837,-12.7794444,45.2272222) 
za,cape town,Cape Town,11,3433504,-33.925839,18.423218) 
zm,lusaka,Lusaka,9,1267458,-15.4166667,28.2833333) 
zw,harare,Harare,4,2213701,-17.8177778,31.0447222) 


1j 


y% IÆ, Pigi A FOREACHIRME AE X LIMIT, ORDER, DISTINCT, CROSS, 
FOREACH 及 FILTER 这 些 关系 操作 符 。 


3. COGROUP 操 作 符 


这 个 操作 符 有 点 类 似 GROUP 操 作 。 它 按键 聚积 n 组 输入 的 记录 ， 而 不 是 只 针对 一 组 。GROUP 
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操作 符 作 用 于 一 个 单一 的 输入 关系 , 而 cocRoUP 则 能 够 作用 于 很 多 组 输入 关系 。cocROUP 可 以 被 
认为 是 连接 (join ) 的 第 一 个 阶段 一 一 cocROUP 操 作 符 后 面 紧 跟 一 个 用 于 解 套 pag 的 FOREAcH 操 作 
符 ， 这 就 是 一 个 内 连接 (innerjoin ) 操作 。 下 面 的 代码 演示 了 worldcitiespop.txt 和 countrycodes.txt 
这 两 个 文件 之 间 使 用 cocROUP 实 现 的 连接 : 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 

ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 

region:int, population:long, lat:double, long:double) ; 

groupedCity - cogroup cc by ccode, ccity by ccode; 

flattendGroupedCity - foreach groupedCity generate flatten (cc) , 
flatten (ccity) ; 

filteredGroup - filter flattendGroupedCity by cc::ccode -- 
ccity::ccode; 


Q coGROUP 操 作 符 最 多 可 以 将 127 个 关系 一 起 分 组 。 


像 半 连接 ( semi-join ) 这 样 的 操作 可 以 通过 cocRoUP 操 作 符 实 现 。 


两 个 关系 的 半 连 接 指 的 是 第 一 个 关系 中 的 记录 ， 通 过 连接 键 可 以 在 第 二 个 
关系 中 找到 一 条 或 多 条 匹配 的 记录 。 


4. UNION 操 作 符 


UNION 操 作 符 被 用 来 连接 两 个 或 多 个 数据 集 。 不 同 于 SQL，Pig 中 的 UNION 操 作 符 对 这 两 个 数 
据 集 的 模式 并 没有 限制 。 如 果 它 们 模式 相同 ， 则 结果 也 是 同样 的 模式 。 如 果 一 个 模式 通过 强制 转 
换 可 以 变 成 男 一 个 模式 ,那么 结果 将 是 这 个 模式 。 否 则 ， 绪 果 就 没有 模式 。 


UNION 操 作 符 不 保留 tple 的 顺序 ， 它 也 不 会 剔除 重复 的 ttple。UNION 操 作 符 有 一 个 叫 作 
ONSCHEMA 的 关键 字 ， 它 会 给 出 结果 集 的 模式 。 这 个 模式 是 数据 集中 所 有 命名 字段 的 一 个 并 集 。 
ONSCHEMA 关 键 字 要 求 所 有 的 输入 关系 有 同一 个 模式 。 

在 我 们 的 countrycodes.txt 和 worldcitiespop.txt 文 件 里 ， 数 据 集 的 模式 并 不 一 致 ， 于 是 结果 也 就 


没有 任何 模式 。 然 而 ， 若 我 们 使 用 UNION 操 作 符 时 一 起 使 用 oNSCHEMA 关 键 字 ， 结 果 集 就 会 有 一 
个 模式 。 这 个 模式 就 是 所 有 关系 的 模式 的 一 个 并 集 。 下 面 的 代码 会 清楚 地 说 明 这 一 点 : 


TE 


ur 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 
ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double) ; 


unionCountryCity - union cc, ccity; 
unionOnSchemaCountryCity - union onschema cc, ccity; 
describe unionCountryCity; 

describe unionOnSchemaCountryCity; 


M 模式 的 比较 包括 字段 的 名 称 。 对 于 字段 有 不 同名 称 的 数据 集 ， 如 果 使 用 
UNION 操 作 符 的 话 ， 结 果 集 将 没有 模式 。 这 种 情况 下 的 解决 方法 是 在 UNION 语 名 
前 ， 先 使 用 FOREACH 操 作 符 将 那些 字段 改 成 相同 的 名 称 。 


Describe 语 句 的 结果 如 下 : 


Schema for unionCountryCity unknown. 
unionOnSchemaCountryCity: {ccode: chararray,cname: 
chararray,cityName: chararray,cityFullName: chararray,region: 
int,population: long,lat: double,long: double) 


5. cROSS 操 作 符 


CROSS 操 作 符 对 两 个 关系 进行 交叉 集合 的 操作 。Pig 中 的 cRoss 操 作 符 是 通过 并 行 地 构造 一 个 
人 工 的 连接 键 , 然后 复制 记录 来 实现 的 。 这 使 得 使 用 crRoss 操 作 符 的 开销 十 分 昂贵 ,特别 是 在 洗 
牌 和 排序 阶段 ， 这 是 因为 每 一 个 被 创建 的 人 工 连接 键 都 需要 复制 所 有 参与 连接 的 记录 。 


尽管 如 此 ， 在 有 些 情 况 下 crRoSs 操 作 符 仍然 是 必须 的 。 其 中 一 种 情况 就 是 9 连接 。 内 连接 是 
基于 相等 的 连接 键 ， 也 就 是 说 , 在 交叉 连接 几 个 关系 的 记录 时 使 用 的 是 相等 操作 。 然 而 ， 有 时 候 
需要 使 用 不 等 式 来 连接 记录 。 这 时 候 ， 就 可 以 通过 cRoss 操 作 符 ， 随 后 紧 跟 一 个 对 连接 键 的 
FILTER 操 作 来 实现 06 连接。 下 面 这 个 假设 的 例子 演示 了 如 何 使 用 cRoss 操 作 符 来 实现 96 连接。 只 
有 当 a1 的 值 小 于 bl 时 ， 连 接 才 会 发 生 : 

A = LOAD 'inputA.txt' AS (a0:chararray, al:int) ; 

B = LOAD 'inputB.txt' AS (b0:chararray, bl:int) ; 


ACrossB - CROSS A, B; 
thetaJoin = FILTER ACrossB BY al < b1; 


模糊 连接 ( fuzzy join ) 则 是 另 一 种 可 以 用 cRoss 操 作 符 来 实现 的 连接 变种 .将 worldcitiespop.txt 
中 有 相同 区 域 编号 的 城市 做 自 连接 (self-join ) 就 是 一 个 例子 。 


I 外 


3.6.2 ”Pig 的 特殊 连接 


Pig 支 持 连 接 优 化 。 这 些 优化 根据 数据 集 以 及 连接 的 特性 可 以 直接 使 用 。 这 些 连接 优化 提升 
了 Pig 脚 本 的 性 能 ， 所 以 强烈 推荐 。 


1. 复制 连接 
在 第 2 章 中 ， 我 们 实现 了 Map 侧 的 连接 和 Reduce 侧 的 连接 。 当 连接 的 某 个 输入 数据 集 小 到 能 
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够 全 部 加 载 进 内 存 时 , Map 侧 就 会 将 最 小 的 数据 集 复制 到 所 有 的 Map 任 务 中 , 然后 执行 连接 操作 。 
这 在 Pig 中 被 称 为 分 段 复制 连接 ( fragment-replicate join )。 这 也 就 是 Map 侧 的 连接 在 Pig 中 的 实现 。 
关于 分 段 复制 连接 ， 下 面 有 一 些 关 键 点 需要 记 住 。 


口 如 果 小 文件 不 能 被 加 载 进 内 存 ，Pig 会 抛 出 异常 并 执行 失败 。 如 果 小 文件 大 于 pig .join. 
replicated.max.bytes 属 性 的 设 定 值 1，Pig 也 会 抛 出 异常 。 

a 分 段 复制 连接 可 以 连接 多 于 2 个 数据 集 。 然 而 ， 除 了 第 一 个 数据 集 以 外 ， 其 他 的 都 会 被 加 
载 进 内 存 。 
口 输入 数据 通过 分 布 式 缓存 被 复制 到 不 同 的 Map 任 务 中 去 ， 这 一 点 跟 我 们 在 第 2 章 中 讨论 过 
的 实现 很 相似 。 

a 分 段 复制 连接 可 以 被 用 于 内 连接 (innerjoin ) 或 是 左 外 连接 (left-outer join )， 不 能 用 于 右 
外 Cright-outer ) 或 是 全 外 连接 ( full-outer join )。 这 是 因为 左边 的 关系 会 被 分 段 ， 而 右边 
的 关系 会 被 整个 复制 。 当 连接 处 理 器 从 右边 的 关系 中 得 到 一 条 记录 时 ， 由 于 它 只 有 左边 
关系 的 一 个 本 地 视图 ， 所 以 它 并 不 知道 在 左边 关系 的 别 的 分 片 里 是 否 存 在 着 匹配 的 键 。 


你 可 以 通过 replicated 关 键 字 来 使 用 分 段 复 制 连接 。 下 面 的 例子 就 是 使 用 这 种 连接 将 
countrycodes.txt 和 worldcitiespop.txt 连 接 起 来 。 必 须 注意 的 是 ，countrycodes.txt 是 其 中 数据 量 相对 
较 小 一 点 的 关系 ， 而 且 在 连接 的 定义 中 也 是 被 写 在 了 后 面 : 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 
ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double) ; 
joinCountryCity - join ccity by ccode, cc by ccode using 
'replicated'; 


2. 倾斜 连接 


数据 倾斜 的 存在 会 使 某 个 Reduce 任 务 超 载运 行 , 从 而 影响 整个 连接 的 性 能 。 数 据 倾斜 是 统计 
上 的 一 种 奇怪 问题 , 恰 马 一 个 或 是 少量 的 键 却 拥有 超大 量 的 记录 。 通 过 提供 数据 倾 儿 连接 ( skewed 


join )，Pig 能 帮助 缓解 这 种 情况 。 具 体 思路 就 是 对 连接 的 输入 关系 做 采样 ， 然 后 对 每 个 键 的 记录 
条 数 绘制 直方 图 。 


随后 分 析 直 方 图 , 那些 拥有 很 多 记录 的 键 会 被 分 割 , 然后 分 派 给 不 同 的 Reduce 任 务 。 通 过 这 
种 方法 ， 在 Reduce 端 实现 了 记录 的 负载 均衡 。 然 而 ， 这 也 需要 复制 其 他 的 输入 关系 ， 以 便 那 些 
Reduce 任 务 都 能 够 拥有 相关 的 记录 ， 从 而 顺利 连接 。 

当 执行 数据 倾斜 连接 时 ， 有 一 些 关 键 点 需要 记 住 。 


口 数据 倾斜 连接 只 可 以 对 两 个 数据 集 进行 操作 。 如 果 你 有 两 个 以 上 数据 集 需要 连接 ， 那 么 
开发 者 的 职责 就 是 将 它 分 解 成 多 个 双 表 连接 。 
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口 当 使 用 这 种 连接 时 ， 由 于 需要 采样 和 构造 直方 图 ， 所 以 会 增加 一 些 性 能 开销 。 据 观察 ， 

这 个 额外 开销 平均 在 5% 左 右 。 

口 被 采样 的 数据 集 是 连接 的 第 二 个 关系 。 

D pig.skewedjoin.reduce.memusag 参数 值 用 来 决定 需要 多 少 额 外 的 Reduce 任 务 去 处 
理 数 据 倾斜 键 。 这 个 属性 的 默认 值 是 0.5， 也 就 是 说 JVM 堆 的 50% 可 分 配给 Reduce 任 务 去 
运行 这 个 连接 。 

通过 skewed 关 键 字 来 使 用 数据 倾斜 连接 ， 如 下 例 所 示 : 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 
ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double) ; 
joinCountryCity - join cc by ccode, ccity by ccode using 'skewed'; 


3. 合并 连接 


正如 我 们 在 第 2 章 中 看 到 的 ， 如 果 输 入 的 数据 都 按 连 接 键 做 了 排序 ， 那 么 可 以 在 Map 侧 直接 
做 连接 。Pig 也 实现 了 这 种 类 型 的 连接 ， 称 为 排序 连接 ( sort join ) 或 合并 连接 (merge join )。 


连接 算法 把 第 二 个 关系 放 到 一 边 ,将 第 一 个 关系 放 入 Map 任 务 。 被 放 到 一 边 的 关系 会 对 
tice. Moss con 索引 是 键 和 偏 移 C offset ) 之 间 的 映射 ， 其 中 的 键 记 
录 了 文件 的 开始 位 置 。 一 旦 索引 创建 完毕 ， 另 一 个 MapReduce 作 业 就 开始 了 ， 并 将 第 一 个 关系 作 
为 输入 数据 。 作 业 读 取 每 一 条 记录 , 并 且 在 索引 中 寻找 第 二 个 文件 中 相应 的 偏 移 量 。 随 后 第 二 个 
关系 中 的 记录 也 被 读 取出 来 ， 连 接 也 随 之 完成 。 


下 面 的 例子 用 countrycodes.txt 和 worldcitiespop.txt 演 示 了 一 个 合并 连接 。 同 样 ， 我 们 注意 到 
countrycodes.txt 会 被 创建 索引 。 通 过 merge 关 键 字 来 使 用 合并 连 $ 


cc = load 'countrycodes.txt' using PigStorage (',') as 
(ccode:chararray, cname:chararray) ; 
ccity = load 'worldcitiespop.txt' using PigStorage (',') as 
(ccode:chararray, cityName:chararray, cityFullName:chararray, 
region:int, population:long, lat:double, long:double) ; 
joinCountryCity - join cc by ccode, ccity by ccode using 'merge'; 


FPERRA — POEM eC 5 35:35 4- ( merge-sparse join )。 当 某 一 个 关系 中 的 数据 十 分 稀 
下 时 可 以 使 用 这 个 连接 ,也 就 是 说 , 在 这 个 连接 中 只 有 很 少量 的 记录 被 匹配 。 这 个 连接 类 型 仍然 
处 于 实验 中 。 目 前 ， 合 并 稀 玻 连接 算法 仅 文 持 内 连接 。 
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3.7 ”用户 定义 函数 


用 户 定义 函数 (User-Defined Functions, UDF )， 可 由 开发 者 自行 实现 ,用 以 扩展 Pig 的 功能 ， 
添加 自 定义 处 理 。 这 些 函 数 几 乎 可 以 被 所 有 的 Pig 操 作 符 所 调用 。 最 初 UDF 用 Java 编 写 。 从 Pig 0.8 
开始 , UDF 支 持 Python。 在 Pig 的 最 新 版 本 中 , 除 Python 和 Java 以 外 , 还 可 以 使 用 Jython JavaScript, 
Ruby 和 Groovy 编 写 。 


除了 Java, 其 他 的 语言 并 不 支持 所 有 的 Pig 接 口 。 比 如 , 加 载 和 存储 接口 就 不 支持 其 他 的 语言 。 
本 书 中 ， 我 们 将 使 用 Java 来 创建 和 说 明 UDF 的 力量 。 

有 一 个 Java UDF 存 储 库 称 为 piggy bank。 这 是 一 个 公共 的 存储 库 ， 你 可 以 利用 别人 写 好 的 
UDF， 同 时 也 可 以 贡献 你 自己 的 UDF 给 社区 。 

在 Pig 中 使 用 UDF 之 前 , 需要 在 Pig 的 脚本 中 先 注册 这 个 JAR 文 件 。 使 用 REGISTER 命 令 可 以 进 
行 注 册 。 除 了 每 个 Map 或 是 Reduce 任 务 中 的 UDF 类 的 实例 外 , Pig 还 会 在 脚本 的 逻辑 计划 和 物理 计 
划 中 创建 一 个 实例 。 这 样 主要 是 为 了 做 验证 。 


M 每 个 Map 和 Reduce 任 务 都 有 自己 的 UDF 副 本 。 跨 Map 和 Reduce 任 务 是 无 法 共 
Q 享 状态 的 ， 不 过 ， 在 同一 个 Map 或 Reduce 任 务 中 是 可 以 共享 的 。 


Pig 的 UDF 大 致 可 以 分 为 以 下 三 种 类 型 . 


口 运算 函数 (evaluation function ) 
a 加 载 函 数 (load function ) 
口 存储 函数 (store function ) 


让 我 们 一 个 个 来 看 看 其 中 的 细节 。 


3.7.1 ”运算 函数 


顾名思义 ， 这 些 函 数 都 是 用 于 计算 的 。 下 面 的 例子 就 是 一 个 自 定义 的 UDF 以 及 它 在 Pig 脚 本 
中 的 使 用 方法 。 所 有 的 运算 函数 都 从 org.apache.pig.EvalFunc 基 类 派生 而 来 。 最 重要 的 重 写 
C override ) 方法 是 exec 方 法 。EvalFunc 类 的 返回 值 是 一 个 泛 型 , 我 们 需要 明确 UDF 的 返回 类 型 。 
exec 方 法 的 输入 是 一 个 Tuple 类 型 。 使 用 get () 方 法 来 解 开 这 个 Tuple, 然后 exec 方 法 就 能 处 理 
这 些 解 开 的 数据 项 。 最 简单 的 UDF 只 需要 重 写 exec 方 法 即 可 : 


package MasteringHadoop; 

import org.apache.pig.EvalPunc; 
import org.apache.pig.data.Tuple; 
import java.io.IOException; 
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public class UPPER extends EvalFunc<String>{ 


GOverride 
public String ex 


if(objects - 


ecTuple objects) throws IOException ( 


- null || objects.size) -- O)( 


return null; 


j 
tryt 
String i 
return i 
j 
catch(Except 


nputString = String) objects.get0); 
nputString.toUpperCase); 


ion ex)( 


throw new IOException("Error processing input ", ex); 


j 
} 
register MasteringHa 
cc = load 'countryco 
(ccode:chararray 
ccCapitalized - fore 


doop-1.0-SNAPSHOT-jar-with-dependencies.jar; 
des.txt' using PigStorage(',') as 

, cname:chararray); 

ach cc generate 


MasteringHadoop.UPPER(cc.cname); 


1. 聚合 函数 


这 些 UDF 都 是 针对 组 ( 
AKZ (aggregate function 


4 


group ) 的 运算 函数 。 比 如 内 置 的 SUM 和 COUNT 之 类 的 函数 都 是 这 类 聚 
)。 聚 合 UDF 接 受 一 个 bag 的 输入 ， 返 回 一 个 标量 (scalar )。 


E 整 条 记录 可 以 用 * 传 递 给 UDF。 当 整 条 记录 被 传递 后 ， 它 会 被 包 衰 进 别 的 
Q tuple。 比 如 ， 执 行 input .get (0) .get(1) 就 可 以 得 到 一 条 记录 的 第 二 个 元 素 。 


第 一 个 get () 调用 可 以 从 tuple 中 得 到 整 条 记录 。 


€ Algebraic 接 口 


如 果 一 个 聚合 函数 实现 了 可 用 于 本 地 聚合 处 理 的 Algepraic 接 口 ， 那 么 Combiner 就 会 被 使 


用 。 在 第 2 章 中 ， 我 们 研究 


任何 代数 ( algebraic ) 


了 Combiner 如 何 帮助 减少 从 Map 任 务 到 Reduce 任 务 的 数据 流 ， 以 及 它 


是 如 何 通过 减少 IO 次 数 来 加 快 查询 的 。 


函数 都 可 以 分 解 成 三 个 函数 : 初始 函数 (initial function ), "P MH] pK% 


( intermediate function )， 最 终 函 数 ( final function )。 如 果 这 三 个 函数 以 级 联 方式 连接 ， 它 就 被 标 


记 为 一 个 代数 函数 。 也 就 是 


说 , 首先 数据 被 分 解 成 分 段 , 然后 初始 函数 对 这 些 分 段 数据 进行 处 理 ， 


随后 初始 函数 的 结果 又 被 中 间 函 数 处 理 ， 最 后 ， 中 间 函 数 的 结果 又 会 被 最 终 函 数 处 理 。COUNT 本 
数 就 是 一 个 代数 函数 的 例子 。 它 的 初始 函数 是 count， 中 间 函 数 和 最 终 函 数 都 是 前 一 个 函数 执行 
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结果 的 sum ( 求 和 )。 


DA (distributive ) 函数 是 一 种 特殊 的 代数 函数 。 所 有 的 三 个 子 函 数 都 做 同样 的 计算 。SUM 
就 是 分 布 孔 数 的 一 个 例子 。 


Pig 提 供 了 org .apache .pig.Algebraic 接 口 , 实现 这 个 接口 可 以 使 UDF 具 有 代数 特性 。 下 
面 的 例子 显示 的 就 是 一 个 实现 Algepbraic 接 口 的 coOUNT 聚 合 UDF。 


代数 函数 要 进行 如 下 的 转换 。 使 用 Combiner 的 Map 任 务 将 执行 Initial 和 Intermediate 静 
态 类 的 exec 方 法 ，Reduce 任 务 将 执行 Final 类 的 exec 方 法 : 


package MasteringHadoop; 


import org.apache.pig.Algebraic; 

import org.apache.pig.EvalFunc; 

import org.apache.pig.backend.executionengine.ExecException; 
import org.apache.pig.data.DataBag; 


import org.apache.pig.data.Tuple; 


import java.io.IOException; 


import java.util.Iterator; 
public class COUNT extends EvalFunc«Long» implements Algebraic ( 
protected static Long count(Tuple input) throws 
ExecException( 
DataBag dataBag - (DataBag) input.get(0); 
return dataBag.size(); 


protected static Long sum(Tuple input) throws ExecException(í 


long returnSum - 0; 


DataBag dataBag - (DataBag) input.get(0); 
for(Iterator«Tuple» it - dataBag.iterator(); 
it.hasNext ();)( 


Tuple tuple - it.next(); 
returnSum += (long)tuple.get(0); 
} 
return returnSum; 


} 
static class Initial extends EvalFunc«Long»( 


GOverride 
public Long exec(Tuple objects) throws IOException ( 
return count (objects); 
} 
} 


static class Intermediate extends EvalFunc<Long>{ 
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GOverride 
public Long exec(Tuple objects) throws IOException ( 
return sum(objects); 
} 
} 


Static class Final extends EvalFunc«Long»(í 


GOverride 
public Long exec(Tuple objects) throws IOException ( 
return sum(objects); 
j 
j 


GOverride 
public Long exec(Tuple objects) throws IOException ( 
return count (objects); 


} 


GOverride 
public String getInitial() ( 
return Initial.class.getName(); 


} 


GOverride 
public String getIntermed() ( 
return Intermediate.class.getName(); 


} 


GOverride 
public String getFinal() ( 
return Final.class.getName(); 
j 
j 


€ Accumulator 接 口 


在 很 多 情况 下 ， 当 使 用 cRoOUP 或 COGROUP 操 作 符 时 ，tuple 中 的 所 有 bag 不 能 按 某 个 特定 键 全 
部 加 载 到 内 存 里 。 而 且 ，UDF 也 并 不 需要 一 次 性 访问 所 有 的 tuple 。Pig 人 允许 UDF 通 过 实现 
accumulator 接口 去 处 理 这 些 情况 。Pig 并 不 是 一 次 性 传递 全 部 记录 ， 而 是 通过 这 个 接口 ， 针 对 
某 个 给 定 的 键 ， 增 量 地 传递 记录 的 子 集 。 


虽然 Algebraic 接 口 通过 聚合 处 理 缓解 了 内 存 的 问题 ， 但 仍然 有 很 多 函数 并 不 具有 代数 性 
质 。 这 些 函 数 仍 可 以 通过 累加 来 实现 聚合 ， 而 且 可 能 不 需要 访问 整个 数据 集 。 


让 我 们 实现 LongMax UDF， 通 过 Accumulator 接 口 找 出 bag 中 的 最 大 值 。 如 下 面 的 代码 所 
示 ， 有 三 个 方法 需要 实现 : accumulate、getValue 和 cleanup。 当 一 个 中 间 记 录 和 集 被 传递 给 


iai 


T 


3.7 ”用户 定义 函数 


65 


UDF 时 会 调用 accumulate 方 法 ， 当 每 个 键 被 处 理 后 会 调用 cleanup 方 法 : 
package MasteringHadoop; 


import org.apache.pig.Accumulator; 

import org.apache.pig.EvalFunc; 

import org.apache.pig.backend.executionengine.ExecException; 
import org.apache.pig.data.DataBag; 

import org.apache.pig.data.Tuple; 


import java.io.IOException; 
import java.util.Iterator; 


public class LONGMAX extends EvalFunc«Long» implements 
Accumulator«Long» { 


private Long intermediateMax - null; 


GOverride 
public Long exec(Tuple objects) throws IOException ( 
return max(objects); 


GOverride 
public void accumulate(Tuple objects) throws IOException ( 
Long newIntermediateMax = max(objects); 


if(newlntermediateMax == null)( 
return; 

) 

if(intermediateMax == null)( 


intermediateMax - Long.MIN VALUE; 


intermediateMax - Math.max(intermediateMax, 
newIntermediateMax); 


GOverride 
public Long getValue() { 
return intermediateMax; 


GOverride 
public void cleanup() ( 
intermediateMax - null; 


protected static Long max(Tuple input) throws ExecException(í 
long returnMax - Long.MIN VALUE; 
DataBag dataBag - (DataBag) input.get(0); 
for(Iterator«Tuple» it - dataBag.iterator(); 


it.hasNext();)( 
Tuple tuple - it.next(); 
Long currentValue - (Long)tuple.get(0); 


if(currentValue > returnMax)( 
returnMax - currentValue; 
j 
j 


return returnMax; 


} 

2. 过 滤 函 数 

过 滤 函 数 ( filter function ) 也 是 运算 函数 ， 只 不 过 它 返 回 的 是 布尔 值 CB 
尔 表 达 式 运算 的 地 方 就 可 以 使 用 它们 。 它 


FilterFunc 接 口 。 


3.7.2 “加载 函数 


oolean )。 只 要 是 布 


们 最 常 被 用 作 FILTER 操 作 符 的 一 部 分 。 它 们 实现 了 


Pig 脚 本 中 的 加 载 函 数 是 用 来 处 理 输 入 数据 的 。 它 们 实现 了 LoadFunc 抽 象 类 ， 且 随同 LOAD 


语句 一 起 被 使 用 。 下 例 是 一 个 简单 的 加 载 CSV 文 件 的 UDF。 需要 重 写 setLoc 


Format 、prepareToRead 和 getNext 这 些 方法 。 


setLocation 函 数 告知 加 载 的 路 径 , 随后 加 载 器 (loader ) 将 这 个 信息 通 
setLocation 方 法 可 以 被 Pig 多 次 调用 。 


ation, getInput- 


知 给 InputFormat。 


prepareToReag 方 法 得 到 InputFormat 类 的 RecordReader 对 象 。 然后 在 getNext 方 法 中 y 


可 以 用 RecordReader 来 读 取 并 解析 记录 。getNext 方 法 将 记录 解析 成 Pig 的 
例 所 示 ， 它 读 取 每 一 行 记录 ， 人 然后 将 它们 解析 成 tuple。 


复合 数据 类 型 , 如 下 


getInputFormat 方 法 通过 加 载 器 将 InputFormat 类 交 给 Pig。 Pig 同 样 以 Hadoop MapReduce 
作业 的 方式 调用 InputFormat。 下 面 的 代码 段 显 示 了 这 个 加 载 CSV 文 件 的 UDF。 


如 果 需 要 递归 地 读 取 HDFS 文 件 夹 中 的 文件 ， 则 可 以 使 用 PigFileInput- 
R) Format fe PigTextInputFormat 。 你 可 以 在 org.apache.pig.backend. 


"— 
Q hadoop.executionengine.mapReduceLayer 包 里 找到 这 


些 Pig 所 特有 的 


InputFormat 类 。Hadoop 自 带 的 TextInputFormat 和 FileInputFormat 只 能 


读 取 一 层 目 录 的 文件 。 


package MasteringHadoop; 


import org.apache.hadoop.io.Text; 
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import org.apache.hadoop.mapreduce.InputFormat; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.RecordReader; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.pig.LoadFunc; 

import org.apache.pig.backend.hadoop.executionengine 
.mapReduceLayer.PigSplit; 

import org.apache.pig.data.DataByteArray; 

import org.apache.pig.data.Tuple; 

import org.apache.pig.data.TupleFactory; 


import java.io.IOException; 
import java.util.ArrayList; 


public class CsvLoader extends LoadFunc { 
private RecordReader recordReader - null; 
private TupleFactory tupleFactory 
TupleFactory.getInstance(); 
private static byte DELIMITER - (byte)','; 
private ArrayList«Object» tupleArrayList - null; 


GOverride 
public void setLocation(String s, Job job) throws IOException ( 
FileInputFormat.setInputPaths(job, s); 


GOverride 
public InputFormat getInputFormat() throws IOException ( 
return new TextInputFormat(); 


GOverride 

public void prepareToRead(RecordReader recordReader, PigSplit 
pigSplit) throws IOException ( 
this.recordReader - recordReader; 


GOverride 
public Tuple getNext() throws IOException ( 
tryt 


if(recordReader.nextKeyValue())( 
Text value - (Text) 
recordReader.getCurrentValue(); 
byte[] buffer - value.getBytes(); 
tupleArrayList - new ArrayList«Object»(); 
int start - O0; 


ant d.e. 
int len - value.getLength(); 


while(i < len)( 


if(buffer[i] == DELIMITER)( 


readFields(buffer, start, i); 
start - i « 1; 
j 
i++; 
} 
readFields (buffer, start, len); 


Tuple returnTuple = 


tupleFactory.newTupleNoCopy (tupleArrayList); 


tupleArrayList - null; 


return returnTuple; 


} 


catch(InterruptedException ex)f{ 
// 错误 处 理 


} 


return null; 


private void readFields(byte[] buffer, int start, int i)( 


rxfistart se 3Jí 
// Nu115 f& 
tupleArrayList.add(null); 
j 
elset 
// 从 start 读 到 i 


tupleArrayList.add (new DataByteArray (buffer, start, 


3.7.3 ”存储 函数 


i)): 


存储 UDF 和 加 载 UDF 类 似 。 它们 扩展 storeFunc 抽 象 类 , 处 理 Hadoop 的 0utputFormat 相 关 
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的 类 以 及 RecoraWriter。 需要 重 写 storeFunc 抽 象 类 中 的 putNext ~ getOutputFormat、 
setstoreLocation 和 prepareToWrite 方 法 。 


3.8 Pig 的 性 能 优化 
在 本 节 中 ， 我 们 将 看 到 不 同 的 


能 参数 ， 以 及 如 何 调整 它们 从 而 优化 Pig 脚 本 的 执行 。 


FH 


3.8.4. 优化 规则 


优化 规则 适用 于 为 Pig 脚 本 而 生成 的 逻辑 计划 。 默 认 情 况 下 ， 所 有 规则 都 是 打开 的 。 
pig.optimizer.rules.disabled 属 性 可 以 关闭 这 些 规则 ， 也 可 以 在 执行 Pig 脚 本 时 通过 指定 
命令 行 参数 -optimizer_off 来 关闭 规则 。 不 过 有 些 规则 是 强制 性 的 ， 不 能 被 关闭 。 参 数 a11 可 
以 关闭 所 有 的 非 强 制 性 规则 : 


set pig.optimizer.rules.disabled «comma-separated rules list» 

或 者 ， 你 也 可 以 使 用 以 下 的 命令 : 

pig -t|-optimizer off [rule name | all] 

m 默认 情况 下 ,FilterLogicExpressionSimplifier 是 关闭 的 。 可 以 通过 


b> 
Q 将 属性 pig.exec.filterLogicExpressionSimplifier 的 值 设 为 true 来 打 
开心 5 


我 们 即将 讨论 的 多 数 优化 规则 都 很 简单 ， 而 且 都 借鉴 了 数据 库 的 查询 优化 。 


口 PartitionFilterOptimizer: 这 个 规则 将 所 有 上 游 的 过 滤 都 下 推 到 加 载 器 。 很 多 加 载 
器 都 是 分 区 敏感 的 ， 并 且 会 被 指示 用 过 滤 条 件 加 载 一 个 分 区 。 

D FilterLogicExpressionSimplifier: 打开 这 个 规则 可 以 简化 过 滤 语 句 表 达 式 。 以 下 
是 一 些 已 经 完成 的 简化 处 理 。 


n 常量 预计 算 : 任何 计算 常量 的 表达 式 都 会 被 预先 计算 。 


X = FILTER A BY $0 > 2*5; 会 被 简化 成 x = FILTER A BY $0 > 10; 


m 去 除 否 定 : 过 滤 表 达 式 中 的 否定 都 会 被 去 除 ， 当 然 逻辑 含义 不 会 发 生 改 变 。 


X = FILTER A BY NOT(NOT ($0 > 10) OR $0 > 20) ;会 被 简化 成 Xx = FILTER A 
BY $0 » 10 AND $0 «- 20; 


m 去 除 AND 中 的 隐 含 表达 式 : AND 表 达 式 中 多 余 的 逻辑 条 件 会 被 去 除 。 


H 


X = FILTER A BY $0 > 5 AND $0 > 10; 会 被 简化 成 x = FILTER A BY $0 > 10; 
m 去 除 oR 中 的 隐 含 表达 式 : OR 表达 式 中 多 余 的 逻辑 条 件 会 被 去 除 。 

X = FILTER A BY $0 > 5 OR $0 > 15; 会 被 简化 成 x = FILTER A BY $0 > 5; 
n 去 除 等 价 : 表达 式 中 的 等 价 比较 都 会 被 简化 。 

X = FILTER A BY $0 !- 5 AND $0 > 5; 会 被 简化 成 x = FILTER A BY $0 > 5; 
n 去除 oR 互 补 表达 中 的 过 滤 : 当 oR 中 存在 互补 表达 式 时 ， 过 滤 是 不 会 被 执行 的 。 

这 个 例子 Xx = FILTER A BY $0 <= 5 OR $0 > 5; 中 的 过 滤 是 不 会 被 执行 的 。 
n 去除“ 总 是 为 真 ” 的 表达 式 : 结果 总 是 为 真 的 过 滤 表 达 式 会 被 去 除 。 


X = FILTER A BY l ==- 1; 


SplitFilter: 这 个 优化 规则 尝试 分 割 过 滤 语 句 。 这 个 splitFilter 优 化 与 其 他 的 过 滤 
优化 组 合 使 用 时 ， 对 于 提升 性 能 将 会 非常 有 效 。 在 下 面 的 例子 中 ，splitFilter 优 化 将 
joinCountryFilter 关 系 分 割 成 两 个 过 滤 。 

joinCountryFilter1 = filter joinCountry by 


INDEXOF(cc::ccode, 'a', 0) == 0; 
joinCountryFilter = filter joinCountryFilterl1 by population > 0; 


cc = load 'countrycodes.txt' using PigStorage(',') as 
(ccode:chararray, cname:chararray); 


ccity = load 'worldcitiespop.txt' using PigStorage(',') as 
(ccode:chararray, cityName:chararray, 
cityFullName:chararray, region:int, 
population:long, lat:double, long:double); 
joinCountry - join cc by ccode, ccity by ccode; 
store joinCountry into 'country-code-join-pig' using 


PigStorage(','); 
joinCountryFilter - filter joinCountry by 
INDEXOF(cc::ccode, 'a', 0) == 0 and population > 0; 
PushUpFilter: 这 种 优化 背后 的 思想 是 将 数据 管道 中 的 过 滤 语 句 推 往 上 游 。 这 样 做 的 好 


处 是 减少 了 将 要 被 处 理 的 记录 条 数 。 在 SplitFilter 例 子 中 ,一 旦 过 滤 被 分 割 ， 
PushUp ilter 会 移动 joinCountryFilter1,， 并 日 把 joincountryFilter 移 到 JOIN 
语句 和 LOAD 语 句 之 间 。 

MergeFilter: MergeFilter 规 则 是 splitFilter 的 补充 。splitFilter 应 用 在 
PushUpFilter 之 前 ， 而 MergeFilter 是 应 用 在 PushUpFilter 之 后 。 多 个 相同 数据 集 
的 过 滤 被 合并 成 一 个 单一 的 过 滤 。 


X = FILTER A BY $0 > 10; 和 
Y = FILTER X BY $1 > 10; 会 被 合并 成 


i 
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Y - FILTER A BY ($0 » 10 AND $1 » 10); 


O PushDownForEachFlatten: FOREACH 语 句 中 的 FLATTEN 操 作 通 常会 产生 比 输入 更 多 的 
tuple, 秉承 着 “在 数据 管道 中 处 理 最 少 记录 条 数 ” 这 一 原则 , PushDownForEachFlatten 
优化 将 这 些 FoREACH 语 句 推 往 下 游 。 在 下 面 的 例子 中 ，FOREACH 语 句 将 被 移 到 JOIN 语 句 
之 后 。 


X 
Y 


FOREACH A GENERATE FLATTEN($0), $1; 
JOIN X BY $1, B BY $1; 


D LimitOptimizer: 和 PushUpFilter 类 似 , 这 里 的 思想 是 将 LIMIT 操 作 符 语句 往 上 游 推 

动 。 这 样 可 以 减少 下 游 需 要 处 理 的 记录 条 数 。 

O ColumnMapKeyPrune: 这 种 优化 背后 的 思想 是 让 加 载 器 只 加 载 需要 的 数据 列 。 如 果 加 载 
器 无 法 做 到 这 一 点 ， 那 么 就 在 加 载 调用 之 后 插入 一 条 FoREACH 语 句 。 这 个 优化 可 以 很 好 
地 作用 在 map 键 上 。 

O AddForEach: AddForEach 优 化 用 于 将 脚本 不 再 需要 的 列 尽快 裁剪 掉 。 在 下 面 的 例子 中 ， 

column1 在 ORDER 语句 之 后 不 再 被 使 用 。 


A = LOAD 'input.txt' AS (column1, column2); 
X = ORDER A by column1; 
Y - FILTER X by column2 » 0; 


一 个 FOREACH 操 作 符 会 被 添加 到 oRDER 和 FILTER 语 句 的 中 间 : 


X1 = FOREACH X GENERATE column2; 
Y - FILTER X1 by column2 » 0; 


U MergeForEach: 这 个 优化 将 多 个 FoREACH 语 句 合并 成 一 个 FOREACH 语 句 。 这 样 可 以 不 必 
多 次 遍历 数据 集 。 这 个 优化 只 有 当下 面 的 三 个 条 件 都 满足 时 才 生 效 。 
m FOREACH 中 不 包含 FLATTEN 操 作 符 。 
m FOREACH 语 句 是 连续 的 。 
m FOREACH 语 句 中 没有 和 肯 套 。 序 列 中 第 一 个 FOREACH 语 句 除外 。 


O GroupByConstParallelSetter: 在 一 个 执行 GROUP ALI 的 语句 中 ， 即 使 将 PARALLEL 
设置 成 Reduce 任 务 的 数量 ,仍然 只 会 使 用 一 个 Reduce 任 务 。 其 余 的 Reduce 任 务 会 返回 空 
的 结果 。 这 个 优化 自动 将 Reduce 任 务 的 数量 设置 为 1。 


3.8.2 Pig 脚本 性 能 的 测量 


UDF 是 开发 者 所 写 的 函数 ， 这 些 函 数 可 能 需要 性 能 分 析 来 识别 热点 。Pig 提 供 了 一 些 使 用 了 
Hadoop 计 数 姨 的 UDF 统 计 功 能 。 可 以 把 pig .udf .profile 设 为 true。 一 旦 这 个 设置 有 效 以 后 ， 
Pig 会 跟踪 执行 某 个 特定 UDF 所 花 的 时 间 , 以 及 UDF 的 调用 频率 。approx._microsecs 测 量 UDF 
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中 大 致 花 费 的 时 间 ，approx._invocations 则 测量 UDF 在 执行 过 程 中 被 调用 的 次 数 。 


通过 设置 pig.udf.profile， 可 以 在 Hadoop 作 业 执 行 过 程 中 启用 计数 器 。 
正如 我 们 在 前 一 章 中 看 到 的 ， 计 数 器 是 全 局 的 ， 而 且 在 跟踪 Hadoop 作 业 时 会 增 
加 额外 开销 。 所 以 此 设置 应 谨慎 使 用 ， 最 好 只 在 测试 时 设置 。 


3.8.3 ”Pig 的 Combiner 


在 前 一 章 ， 我 们 已 经 了 解 Combiner 如 何 减少 磁盘 IO ， 同 时 减少 通过 网 络 从 Map 任 务 发 送 到 
Reduce 任 务 的 数据 量 。 在 Pig 中 ， 基 于 脚本 的 结构 ，Combiner 也 可 能 会 被 调用 。 下 面 是 一 些 调用 
Combiner 的 条 件 。 


a fi HIGHECERFonEACHIÉ AJ 
O 一 条 FOREACH 语 句 中 的 所 有 投影 都 是 分 组 表达 式 ， 或 者 说 所 使 用 的 UDF 都 是 代数 函数 ， 
也 就 是 说 它们 实现 了 Algebraic 接 口 。 


M 当 DISTINCT 是 误 套 中 唯一 一 个 操作 符 时 ，Combiner 也 可 以 被 用 在 误 套 
Q FOREACH A) T, 


在 以 下 条 件 下 ，Combiner 不 会 被 使 用 。 


口 脚本 在 执行 前 面 提 到 的 规则 时 失败 。 
O 在 GROUP 和 FOREACH 之 间 存 在 任何 语句 ; Pig 0.9 以 后 ，LIMIT 操 作 符 除外 。 


M 逻辑 优化 器 可 能 会 使 用 PushUpFilter 优 化 将 任何 紧 随 FOREACH 的 FILTER 
Q 操作 符 推 往 上 游 。 这 可 能 会 阻碍 Combiner 的 使 用 。 


3.8.4 Bag 数据 类 型 的 内 存 


Bag 是 唯一 一 种 当 数 据 不 能 全 部 加 载 到 内 存 时 ， 会 被 保存 到 磁盘 的 复合 数据 类 型 。 
pig.cachedbag .memusage 参 数 决定 了 分 配给 bag 的 内 存 百分比 。 默 认 值 是 0.2， 也 就 是 说 应 用 
中 的 所 有 bag 可 以 共享 20% 的 的 内 存 。 


3.8.5 ”Pig 的 reducer 数 量 
不 同 于 原始 的 MapReduce, Pig 会 根据 输入 数据 的 大 小 来 决定 Reduce 任 务 的 数量 。 输入 的 数据 
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根据 big.exec.redqucers.bytes.per.reducer 人 参数 的 值 来 进行 切 分 , 从 而 得 到 Reduce 任 务 的 
数量 。 这 个 参数 的 默认 值 是 1000000000 (1 GB )。 不 过 ，Reduce 任 务 的 最 大 数量 由 pig .exec. 
reducers .max 参 数 的 值 决定 。 它 的 默认 值 是 999。 


实现 计算 Reduce 数 量 算法 的 类 由 pig.exec.reducer.estimator 决 定 。 只 要 实现 了 
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigReducer- 
Estimator 接 口 ,然后 将 完整 的 类 名 写 到 该 配置 项 中 , 就 可 以 用 自 定 义 算 法 覆盖 它 。 通 过 提供 
个 值 给 pig .exec.reducer.estimator.arg 配 置 项 , 就 可 以 传递 参数 给 这 个 自 定义 的 算法 。 这 
个 值 被 作为 字符 串 参 数 传递 给 构造 函数 。 


3.8.6 ”Pig 的 multiquery 模 式 
默认 的 情况 下 ，Pig 以 multiquery 模 式 执 行 。 一 个 Pig 脚 本 中 所 有 的 语句 将 作为 一 个 Pig 作 业 执 
fre 比如 : 


使 用 -M 或 -no_multiquery 参 数 来 关闭 multi-query 模 式 的 执行 . 
pig -M «script» or pig -no multiquery «script» 


E 应 避免 使 用 DUMP， 因 为 它 禁 用 multiquery 执 行 ， 而 这 会 导致 重新 评估 关系 ， 
Q 使 得 Pig 脚 本 变 得 低 效 。 相 反 ， 使 用 STORE 不 失 为 一 个 好 办 法 。 交 互 式 命令 DUMP 
会 强制 Pig 编 译 器 避免 multiquery 执 行 。 
当 multiquery 执 行 发 生 时 , 对 用 户 来 说 , 一 定 要 区 分 哪些 作业 执行 成 功 , 哪些 执行 失败 。sTORE 
命令 的 输出 将 有 不 同 的 路 径 , 然后 通过 查看 这 些 文件 可 以 知道 执行 的 结果 。 此外, 在 执行 结束 时 ， 
Pig 会 返回 一 个 表明 脚本 执行 状态 的 返回 值 。 下 表 显 示 了 不 同 的 返回 值 及 它们 所 代表 的 含义 : 


返回 值 8 Xx 
0 成 功 
1 可 修复 的 错误 
2 失败 (全部) 
3 失败 (部 分 ) 


3.90 ”最 佳 实践 


上 一 节 中 所 述 的 优化 规则 通过 改变 Pig 脚 本 的 逻辑 计划 以 提高 性 能 。 我 们 知道 ， 这 些 规则 将 
有 助 于 开发 高 效 的 脚本 ， 同 时 ， 另 外 有 一 些 做 法 也 可 以 加 快 Pig 脚 本 。 但 这 些 最 佳 的 实践 并 不 能 
称 之 为 规则 ,因为 它们 是 针对 特定 的 应 用 程序 和 数据 而 言 。 同 时 ， 这 些 优化 规则 趋 于 保守 ， 所 以 
并 不 能 保证 一 定 有 效 。 
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3.9.1 明确 地 使 用 类 型 


Pig 文 持 很 多 类 型 ， 既 有 基本 的 ， 也 有 复杂 的 。 类 型 的 正确 使 用 可 以 加 快 你 的 脚本 ， 有 时 其 
至 能 达到 2 倍 。 比如, 在 Pig 中 ,所 有 没有 类 型 声明 的 数值 计算 都 默认 为 double 计 算 。Pig 中 的 double 
类 型 占用 8 个 字 节 的 存储 ， 而 int 类 型 只 占 4 个 字 节 。int 的 计算 速度 比 9ouble 类 型 的 更 快 。 


3.9.2 ”更 早 更 频繁 地 使 用 投影 


正如 我 们 之 前 所 看 到 过 的 AdadqForEach 和 ColumnMapKeyPrune 优 化 器 ， 只 投影 project) 下 
游 需 要 的 字段 就 是 一 种 好 的 实践 。 这 有 助 于 减少 需要 传输 的 数据 以 及 下 游 要 处 理 的 数据 。 检 查 脚 
7k, 看 看 其 中 是 否 包 含 没 有 被 使 用 的 字段 , 这 也 是 一 种 很 好 的 做 法 。 在 每 个 使 用 FoREACH 语 句 的 
操作 后 ， 只 投影 必要 的 字段 从 而 剔除 未 使 用 的 字段 。 更 早 、 更 频繁 地 使 用 投影 是 Pig 的 一 项 最 佳 
实践 。 


3.0.3 ”更 早 更 频繁 地 使 用 过 滤 

类 似 于 投影 ， 更 早 、 更 频繁 地 使 用 过 滤 一 样 有 效 。 同 样 ， 过 滤 减 少 需要 传输 的 数据 以 及 下 游 
要 处 理 的 数据 。 过 滤 通 过 减少 记录 的 条 数 来 减少 数据 , 而 投影 是 通过 减少 数据 集 的 字段 数 来 减少 
数据 。 


M 如 果 过 滤 去 除 的 是 很 少量 的 数据 ， 且 过 滤 操 作 开销 很 高 的 话 ， 那 么 更 早 更 
频繁 地 使 用 过 滤 就 不 一 定 有 效 。 在 实施 这 一 实践 时 ， 一 定 要 了 解 你 的 数据 。 


3.94 ”使 用 PITMIT 操 作 符 


很 多 时 候 , 我 们 感 兴趣 的 是 取样 或 是 取得 结果 集中 最 上 面 的 几 条 记录 。 这 时 你 可 以 用 LIMIT 
操作 符 来 做 这 个 。 正 如 我 们 在 Limitoptimizer 规 则 中 看 到 的 ，LIMIT 操 作 符 将 被 推 往 上 游 ， 以 
减少 整体 的 处 理 时 间 。 


3.9.5 ”使 用 DIsTINCT 操 作 符 


在 Pig 中 有 两 种 方法 可 以 找 出 某 个 字段 中 有 多 少 不 同 的 元 素 : 一 种 方法 是 使 用 GROUP 操 作 符 ， 
然后 生成 分 组 键 ， 另 一 种 方法 是 使 用 DISTINCT 操 作 符 。 后 者 比 前 者 更 高 效 。 


3.9.6 减少 操作 


MergeForEach 和 MergeFilter 将 连续 的 FOREACH 和 FILTER 语 句 合 并 成 一 个 单一 的 
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FOREACH 或 FILTER 语 句 。 设 法 找 出 那些 可 以 合并 多 个 操作 的 机 会 。 在 数据 管道 中 减少 操作 符 的 
数量 可 以 提高 Pig 脚 本 的 性 能 。 


3.9.7 ”使 用 Algebraic UDF 


当 你 要 开发 UDF, 并 且 处 理 过 程 是 代数 性 质 , 那么 让 UDF 实 现 Algepbraic 接 口 是 一 个 很 好 的 
实践 。 当 Algebraic UDF 作 用 在 已 经 被 分 过 组 的 数据 时 , 将 调用 Combiner。 在 MapReduce 中 ,使 用 
Combiner 将 提高 作业 的 性 能 。 


3.9.8 使 用 Accumulator UDF 
通过 将 输入 数据 分 块 ，Accumulator UDF 可 以 减少 UDF 所 需 的 内 存 数 。 


3.9.9 剔除 数据 中 的 空 记录 


对 关系 做 JOIN 或 GROUP 操作 会 将 所 有 的 空 (NULL ) 键 分 配 到 一 个 单一 的 Reduce 任 务 。 如 果 
使 用 FLATTEN 将 分 组 解 开 , 那么 所 有 的 空 记录 也 将 被 剔除 。 然 而 ,这 个 剔除 是 发 生 在 Reduce 任 务 
执行 以 后 。 在 JoIN 或 GROUP/cocROUP 操 作 符 之 前 主动 过 滤 掉 空 记录 ， 去 除 那些 需要 处 理 空 键 的 
Reduce 任 务 ， 可 以 显著 地 提高 脚本 的 性 能 。 


3.9.10 ”使 用 特殊 连接 


普通 连接 的 第 二 个 输入 被 作为 流传 输 ， 而 不 是 被 加 载 到 内 存 中 。 这 在 Pig 中 是 一 种 常规 的 连 
接 优化 。 当 连接 不 同 大 小 的 数据 集 时 , 更 高 效 的 做 法 是 将 数据 量 大 的 数据 集 作 为 连接 的 最 后 一 个 
输入 : 


C = JOIN small file BY s, large file by F; 


正如 我 们 在 3.6.2 节 中 所 看 到 的 ，Pig 中 还 可 以 利用 很 多 其 他 的 连接 优化 。 


3.9.11 压缩 中 间 结 果 


Pig 脚 本 可 能 被 编译 成 多 个 MapReduce 作 业 。 每 个 作业 都 可 能 产生 中 间 输 出 。 可 以 用 LZO 压 缩 
编码 来 压缩 这 些 中 间 输 出 。 这 不 仅 有 助 于 节省 HDFS 的 存储 ， 还 可 以 帮助 减少 加 载 时 间 从 而 更 快 
地 执行 作业 。 


big.tmpfilecompression 属 性 决定 了 是 否 压 缩 中 间 文 件 。 默 认 情 况 下 ， 该 值 为 false。 
pig.tmpfilecompression.codqec 属 性 的 值 表 示 用 于 压缩 的 编码 器 。 目 前 ,这 个 参数 的 可 用 值 
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是 gz 和 1zo。 虽然 GZIP 压 缩编 码 提供 了 更 好 的 压缩 , 但 它 并 不 是 首选 ， 因 为 它 的 执行 时 间 相 对 比 


3.9.12 合并 小 文件 


在 第 2 章 中 ,我 们 已 经 看 到 小 文件 带 来 的 问题 ， 以 及 combineFileInputFormat 的 使 用 方法 。 
Pig 现 在 已 经 内 置 支持 小 文件 的 合并 。 这 可 以 减少 分 片 的 数量 ， 进 而 减少 Map 任 务 数 。 


可 以 将 pig.splitcombination 属 性 的 值 设 为 true 来 合并 小 文件 。 每 个 分 片 的 大 小 由 
pig.maxCombinedSplitSize 属 性 决定 。 将 这 个 属性 的 值 设 为 每 个 Map 任 务 输入 数据 的 建议 大 
小 (单位 为 字 节 )。 小 文件 将 被 合并 ， 直 到 达到 这 个 限制 值 。 


自 带 的 PigStorage 加 载 器 对 于 合并 小 文件 很 有 效 。 如 果 你 要 写 一 个 自 定义 

M 的 加 载 器 ， 它 必须 是 无 状态 地 调用 prepareToRead 方 法 。 此 外 ， 这 个 加 载 器 不 

Q 能 实现 IndexableLoadFunc、OrderedLoadFunc 和 Collectable- LoadFunc 
接口 。 


3.40 小结 


在 本 章 中 ,我们 探讨 了 Pig 的 一 些 高 级 特性 ， 此 外 还 深入 了 解 了 Pig 提 供 的 优化 功能 。 本 章 学 
到 的 主要 内 容 如 下 。 


a 一 般 说 来 ， 尽 可 能 在 更 多 的 情况 下 尝试 使 用 Pig。Pig 的 抽象 、 开 发 助手 及 其 灵活 性 可 以 节 
省 你 的 时 间 和 人 金钱。 在 转换 成 MapReduce 作 业 前 伸展 Pig 的 能 

a 逻辑 计划 优化 可 能 会 改变 语句 的 执行 顺序 。 广 泛 使 用 BxPLAIN 和 ILLUSTRATE 命 令 来 学 习 
Pig 脚 本 。 
口 遵循 本 章 提 到 的 一 些 准则 有 助 于 Pig 更 快 地 执行 脚本 。 努 力 让 UDF 实 现 Algebraic 或 
Accumulator 接 口 ， 两 个 都 实现 当然 更 理想 。 

口 了 解 你 正在 尝试 处 理 的 数据 。 特 殊 问 题 特 殊 对 待 ， 某 些 类 型 的 数据 问题 就 可 以 采用 专门 
的 支持 ， 比 如 数据 倾斜 连接 可 用 于 连接 倾斜 的 数据 。 


下 一 章 , 我 们 会 详细 探讨 Hive ( Hadoop MapReduce 上 一 种 更 高 层面 的 SQL 抽象 ) 的 一 些 高 级 
村 性 。 
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SQL 作 为 一 门 数 据 处 理 语言 , 流行 了 近 40 年 。 对 于 关系 数据 存储 和 SQL, 很 多 人 已 了 如 指 掌 。 
通过 引入 用 户 熟 知 的 概念 来 降低 学 习 难 度 ， 自 然而 然 ， 越 来 越 多 的 人 就 会 选择 Hadoop。 基 于 | 
Hadoop MapReduce，Hive 引 入 了 关系 型 SQL。 在 上 一 章 有 关 Pig 的 介绍 中 ， 我 们 学 习 了 使 用 Pig 脚 

本 来 设计 MapReduce 工 作 流 的 高 级 用 法 。 本 章 我 们 会 深入 学 习 Hive 的 高 级 用 法 。 


Apache Hive 经 常 被 视 为 数据 仓库 的 基础 设施 。 通 常 ， 商 业 智 能 信息 来 自 数据 仓库 一 一 企业 
内 部 汇集 了 许多 数据 源 数据 的 数据 库 。 企 业内 部 的 历史 与 当前 数据 都 保存 在 这 些 数据 库 中 , 基本 
上 ， 报 表 和 分 析 都 需要 查询 这 些 数据 。 通 常 ， 关 系 型 数据 库 (RDBMS ) 是 构成 数据 仓库 的 基础 
设施 ， 查 询 语言 SQL 用 来 分 析 与 生成 报表 。 关 系数 据 存 储 和 SQL 查询 通常 是 数据 仓库 的 基础 ， 数 
据 存储 建 模 通 常 基于 专门 的 星 型 或 雪花 模型 。Apache Hive 沿 用 了 SQL， 但 是 底层 存储 变 为 了 
HDFS, ， 而 且 查 询 语句 转变 为 MapReduce 作 业 。Hive 查 询 语句 所 用 的 变种 SQL 称 为 HiveQL。 


本 章 ， 我 们 将 介绍 如 下 几 个 主题 : 


O 基于 Hadoop 集 群 的 Hive 架 构 

O Hive 支 持 的 数据 类 型 、 底 层 文件 格式 和 数据 模型 
O 各 种 Hive 查 询 计划 优化 器 以 及 它们 的 重要 性 

口 Hive 扩 展 功 能 ， 比 如 UDF、UDAF、UDTF 


4.1 Hive 架构 
Hive 架 构 如 下 图 所 示 。 接 下 来 会 详细 介绍 各 个 组 件 。 
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ít | JDBC | opec | Hive f 
| aeaa | | Thrift ) 
驱动 元 存储 
d 编译 器 É 优化 器 H 执行 器 | J 


| Hadoop | 


4.1.1 Hive 元 存储 


元 存储 是 个 数据 库 ， 用 于 保存 系统 相关 的 元 数据 ， 有 关 表 、 分 区 、 表 结构 、 字 段 类 型 以 及 表 
存放 路 径 的 详细 信息 都 存放 在 这 里 。 使 用 Thrift 接 口 ， 许 多 不 同 编程 语言 写成 的 客户 端 都 可 以 读 
取 这 些 数据 。 这 些 数据 保存 在 关系 数据 库 中 ， 并 通过 对 象 关系 映射 4ORM ) 层 进行 读 写 。 元 存 
储 使 用 RDBMS ， 可 以 降低 Hive 查 询 编译 器 获取 元 数据 信息 的 延迟 。 


因为 元 存储 的 ORM 层 是 可 插 拔 的 ， 所 以 Hive 可 以 集成 任何 类 型 的 RDBMS。 默 认 的 RDBMS 
是 Apache Derby 一 一 一 种 开源 的 关系 型 数据 库 。 实 践 中 ， 元 存储 服务 运行 于 MySQL 或 其 他 流行 
的 RDBMS 之 上 。 元 数据 代表 了 原生 HDFS 文 件 的 数据 结构 ， 所 以 定期 备份 或 复制 元 数据 ， 防 止 
元 存储 骨 溃 ， 至 关 重 要 。 只 有 在 编译 的 时 候 才 会 访问 元 存储 服务 ，MapReduce 作 业 运 行 时 绝 不 
会 访问 它 。 


4.1.2 ”Hive 编 译 器 


编译 器 获取 HiveQL 查 询 语句 , 然后 转换 为 MapReduce 作 业 。 解 析 器 解析 查询 语句 生成 抽象 语 
法 树 (AST )。AST 根 据 从 元 存储 获取 的 元 数据 来 检查 类 型 与 语义 一 致 性 ， 检 查 完 毕 后 生成 可 操 
作 的 DAG。 之 后 DAG 会 经 过 一 系列 的 优化 变换 。 优 化 变换 的 过 程 是 链 式 的 ， 最 终 会 生成 优化 后 
的 操作 树 。 用 户 可 以 实现 Transform 接 口 来 自 定义 变换 。 本 章 后 续 会 介绍 一 些 优化 器 。 


优化 后 的 DAG 接 着 转换 为 物理 计划 。 物 理 计划 系列 的 MapReduce 和 HDFS 作 业 组 成 。 
HDFS 作 业 用 来 读 写 HDFS 上 的 数据 。 


4.1.3 ”Hive 执 行 引 擎 
一 旦 执行 引擎 从 编译 器 获取 到 物理 计划 ， 就 会 严格 地 按照 依赖 关系 执行 作业 。 物 理 计划 以 
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plan.xml 文 件 为 载体 ， 分 发 给 Hadoop 集 群 中 的 每 个 任务 。 这 个 文件 使 用 旁 通道 ， 如 分 布 式 缓存 ， 
分 发 到 集群 中 的 各 个 节点 。 作 业 执 行 结果 会 存放 在 临时 路 径 。 如 果 指 定 了 存储 路 径 ， 那 么 一 旦 整 
个 查询 全 部 执行 完毕 ，Hive 就 会 使 用 数据 操作 语言 (DML ) 把 这 些 文件 移 到 指定 路 径 。 如 果 某 个 
查询 没有 指定 存储 路 径 ， 那 么 直接 访问 临时 路 径 就 可 以 获得 查询 结果 。 


4.1.4 Hive 的 支持 组 件 
Hive 包 含 了 许多 支持 组 件 ， 如 下 所 示 。 


口 Driver 组 件 负责 提交 查询 ， 并 按照 正确 的 顺序 调用 各 个 组 件 ， 从 而 协调 查询 的 生命 周期 。 
同时 Driver 也 会 生成 会 话 和 跟踪 会 话 统计 数据 。 

口 查询 语句 可 以 通过 多 种 客户 端 提交 到 Hive, 值得 关注 的 有 命令 行 接口 ( CLI )、 网 络 接口 、 
JDBC/ODBC 连 接 器 。 在 Hive 序 列 化 库 中 ，Thrift 序 列 化 应 用 广泛 。 

a 可 扩展 组 件 , 例如 SerDe 和 ObjectInspector 接 口 , 有 助 于 用 户 集 成 多 种 数据 类 型 和 遗留 数 
据 。 通 过 编写 用 户 自 定义 函数 和 用 户 自 定义 聚合 函数 ( UDAF )， 用 户 可 以 扩展 Hive 的 
功能 。 


4.2 数据 类 型 


Hive 支 持 所 有 的 原生 数值 类 型 ,例如 ,TINYINT SMALLINT,INT,BIGINT,FLOAT,DOUBLE 
和 DECIMAL。 另 外 ，Hive 还 支持 字符 类 型 ， 例 如 cHAR、VaARCHAR 和 STRING。 类 似 SQL， 时 间 指 
标 数据 类 型 ， 例 如 TIMESTAMP 和 DATE，Hive 也 支持 。 辅 助 类 型 ， 如 BooOLEAN 和 BINARY， 同 样 
支持 。 


Hive 也 支持 许多 复合 类 型 ,复合 类 型 由 其 他 原生 类 型 或 复合 类 型 组 成 ,可 用 的 复合 类 型 如 下 。 


O srRUCTS: 类 似 C 语 言 的 结构 体 ， 代 表 数 据 元 素 的 分 组 。 符号 点 可 以 解 引用 结构 体 中 的 元 
素 。 对 于 某 列 的 字段 ，C 语 言 中 定义 为 结构 体 STRUCT (x INT, y STRING}， 可 以 通过 
A.x 或 A.y 访 问 。 
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语法 : STRUCT«field name : data, type» 


O maps: 键 - 值 数 据 类 型 ， 通 过 把 键 包含 在 方 括号 中 可 以 获取 值 。Map 类 型 的 列 M， 了 映射 键 
x 到 值 y»， 可 以 通过 MIx] 获 取 值 。 值 的 类 型 没有 限制 , 但 是 键 必须 是 原生 类 型 。 


语法 : MAP«primitive type, data type» 


O ARRAYS: 数组 ， 可 通过 元 素 位 置 随意 访问 其 中 元 素 。 获 取 数 组 元 素 的 语法 类 似 map。 但 
是 ， 方 括号 内 的 元 素 索 引 序 号 从 0 开始 。 


语法 : ARRAY«data, type» 


Q UNIONS: Hive KAK, RRAN ERA PE CIPUE 2I IRR SAP 


语法 : UNIONTYPE<data_typel, data, type2..» 


4 


Q Hive 中 的 函数 和 数据 类 型 是 不 区 分 大 小 写 的 。 


HiveJ& & 20.7.0: 支持 UNIONTYPE 复 合 数 据 类 型 。 
. Hive 4 20.8.0: 支持 TIMESTAMP 和 BINARY 数 据 类 型 。 
Hive 版 本 三 0.11.0: 支持 DECIMAL 数 据 类 型 。 
Hive 版 本 三 0.12.0: 支持 DATE 和 VARCHAR 数 据 类 型 。 
Hive 版 本 三 0.13.0: 支持 CHAR 数 据 类 型 。 


4.3 文件 格式 
Hive 支 持 许多 文件 格式 。 本 节 ， 我 们 会 介绍 其 中 一 些 文件 格式 和 用 途 。 


4.3.4 压缩 文件 


某 些 场景 下 ， 文 件 以 压缩 格式 保存 在 HDSF 中 是 有 利 的 ， 这 样 做 不 但 能 节省 存储 空间 ， 而 且 
还 能 减少 查询 时 间 。Hive 支 持 把 GZIP 或 BZIP2 格 式 的 文件 直接 导入 表 。 在 查询 执行 期 间 ， 解 压 后 
的 文件 会 作为 Map 任 务 的 输入 。 但 是 ， 压 缩 格 式 使 GZIP 或 BZIP2 的 文件 不 可 切 分 ， 所 以 只 能 由 单 
个 Map 任 务 处 理 。 


实践 中 ， 这 些 压缩 文件 会 装载 到 表 中 ， 这 些 表 的 底层 数据 格式 是 Sequence 文 件 。Sequence 文 
是 可 切 分 的 ， 所 以 可 以 被 多 个 Map 任 务 处 理 。 


件 
M Hive 根 据 io.seqfile.compression.type 配 置 项 的 值 来 确定 Sequence 文 
Q 件 的 压缩 方式 。 此 配置 有 两 种 值 : RECORD— -压缩 每 条 记录 ; BLOCK 缓冲 


区 文件 大 小 达到 1 MB 就 压缩 一 次 。 


Lempel-Ziv-Oberhumer ( LZO ) 是 以 解压 缩 速 度 见 长 的 无 损 压 缩编 解码 器 。LZO 编 解码 器 需 
要 安装 在 集群 中 的 每 个 节点 上 ， 这 样 Hadoop 集 群 才能 使 用 它 。 在 Hadoop 集 群 中 ， 通 过 把 


mapreduce.output.fileoutputformat.compress.codec 和 mapreduce.output.file- 
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output format .compress 分 别 设置 为 LZO 编 解码 顺和 true， 输 出 文件 便 会 被 压缩 成 LZO 格 式 。 
在 Hive 中 把 hive.exec.compress.output 设 为 true 后 ，Hive 的 查询 结果 便 会 保存 为 LZO 压 缩 
格式 。 


4.3.2 ”ORC 文件 


ORC 代 表 Optimized Row Columnar 文 件 。 这 种 文件 格式 是 Hive 的 一 大 亮点 , 它 类 似 于 RC( Row 
Columnar ) 文件 ， 但 有 所 改进 。 


ORC 文 件 结构 如 下 图 所 示 。 它 包含 多 组 行 数据 ， 这 些 组 称 为 段 ， 这 些 段 通常 大 小 为 230MB。 
文件 的 尾部 有 文件 页 脚 和 附录 。 文 件 页 脚 记录 段 的 元 数据 、 每 段 的 行 数 、 每 段 的 统计 数据 (数据 m 
总 数 、 最 小 值 、 最 大 值 、 数 据 总 和 ) 等 信息 。 
每 段 也 有 页 脚 , 它 保存 着 本 段 局 部 统计 数据 。ORC 文 件 的 主要 特征 是 以 列 存储 的 格式 保存 记 
录 。 所 有 行 记录 的 列 都 连续 存放 在 文件 中 ， 这 样 对 于 聚合 查询 可 以 提高 1/O 效 率 。 下 图 是 ORC 文 
件 的 示意 图 : 


4.3.3 Parquet 文件 


Hive 中 另 一 种 被 广泛 应 用 的 列 存储 格式 是 Parquet。 从 Hive 0.10.0 到 Hive 0.12.0， 并 不 包含 
Parquet 软 件 包 ， 所 以 需要 另外 单独 安装 。 然 而 ，Hive 0.13.0 已 经 原生 集成 了 Parquet。 值 得 关注 的 
是 ，Parquet 可 以 保存 记录 中 的 散 套 信息 。 
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SerDe4X & fF 7] 4U, (serialization ) 和 反 序 列 化 (deserialization )， 用 来 读 写 
Hive 表 中 的 行 。SerDe 组 件 是 文件 格式 和 行 对 象 之 间 的 桥梁 : 
一 HDFS File 一 InputFileFormat — < key,value > — DeSerializer 一 Row Object 
Row Object 一 Serializer — < key,value > — OutputFileFormat 一 HDFS file 


4.4. 数据 模型 


Hive 按 照 数 据 库 的 形式 进行 组 织 ， 逻 辑 上 ， 数 据 库 代 表 Hive 表 的 集合 。Hive 数 据 库 为 表 分 配 
了 命名 空间 。 如 果 没 有 分 配 命名 空间 ， 那 么 命名 空间 为 aefault。 创 建 数据 库 后 ， 会 在 HDFS 创 
建 对 应 目录 , 用 来 存放 数据 库 中 的 文件 。 这 目录 就 代表 着 表 的 命名 空间 。 命 令 CREATE DATABASE 
MasteringHadoop 会 创建 MasteringHadoop 数 据 库 。 查 看 HDFS 目 录 结 构 ， 可 见 为 这 个 数据 库 对 
应 地 建立 了 目录 ， 如 下 所 示 : 


drwxr-xr-x - gandeepkaranth supergroup 0 2014-05-15 08:55 
/user/hive/warehouse/masteringhadoop.db 


类 似 于 传统 的 RDBMS X (table ) EREEREER, E48 ETC IHR IUoRERUAH GT. 
记录 就 是 由 类 型 化 的 列 组 成 的 行 。 一 张 表 对 应 于 HDFS 中 单个 目录 。 通 过 建立 外 表 ( external table ), 
Hive 可 以 在 现存 数据 目录 上 创建 表 结 构 。Hive 会 为 每 张 表 保存 元 数据 ,元 数据 包含 列 类 型 和 所 有 
列 的 信息 。 另 外 还 包含 其 他 信息 ， 如 表 拥 有 者 、 列 的 序列 化 与 反 序列 化 信息 、 数 据 存储 格式 、 桶 
相关 的 元 数据 。 通 过 hive .metastore.warehouse.dir 可 以 配置 数据 库 和 表 在 HDFS 中 的 存放 
路 径 。Hive 安 装配 置 目 录 (conf) 中 的 hive-default.xml 或 hive-site.xml 文 件 定义 了 这 些 配 置 。 


M 
| Q 对 HDFS 中 的 外 表 指 定 LOCATION 后 ，Hive 会 认为 数据 文件 都 在 某 个 目录 中 。 ] 


TE (partition ) 就 是 根据 表 中 茶 列 不 同 的 值 对 表 进 行 切 分 。 一 旦 指定 分 区 列 ， 所 有 记录 会 
按照 这 些 组 合 列 的 不 同 值 或 单个 值 ， 保 存 到 表 目 录 的 子 目录 。 查询 处 理 中 ,分 区 可 以 通过 裁剪 预 
过 滤 掉 不 需要 的 记录 ， 这 样 可 以 降低 查询 的 延迟 和 IO。 必 须 指 出 ， 分 区 也 会 增加 HDFS 中 的 文件 
数 ， 相 应 的 Map 任 务 数 和 中 间 结 果 也 会 增加 ， 所 以 要 获得 最 优 性 能 ， 需 要 制定 正确 的 分 区 数 。 


| Q 在 外 表 上 执行 DBROP 命 令 ， 不 会 删除 HDFS 上 的 数据 。 | 


记录 根据 同 列 的 值 进行 hash 计 算 ， 然后 根据 hash 值 分 别 保存 到 对 应 叶 级 目录 下 的 文件 中 ， 这 
些 文件 称 为 桶 (bucket ) 或 聚集 ( cluster )。Hive 用 户 可 以 指定 每 个 分 区 的 桶 数 ， 如 果 表 没有 分 区 ， 
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那么 还 可 以 指定 每 张 表 的 桶 数 。Hive 会 计算 桶 列 的 hash 值 ， 再 以 桶 的 个 数 取 模 来 计算 某 条 记录 
于 哪个 桶 。 分 桶 有 利于 数据 采样 。 


让 我 们 为 worldcitiespop.txt 文 件 建立 一 张 表 。 下 面 的 数据 定义 语言 (DDL ) 演示 了 如 何 建立 
外 表 的 表 结 构 : 


CREATE EXTERNAL TABLE MasteringHadoop.worldcities external (code 
VARCHAR(5), name STRING, fullName STRING, region INT, population 
BIGINT, lat FLOAT, long FLOAT) 

COMMENT 'This is the world cities population table' 

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 

STORED AS TEXTFILE 

LOCATION '/user/sandeepkaranth/worldcitiespop'; 


关键 字 EXTERNAL 表 明 这 是 一 张 已 存在 的 表 。 关 键 字 与 元 数据 紧密 相关 ， 这 些 信息 会 保存 在 
元 存储 中 。ROW FORMAT 定 义 了 此 表 序 列 化 与 反 序列 化 的 语义 。 如 果 没 有 指定 Row FORMAT, 或 
者 说 只 指定 了 Row FORMAT DELIMITED， 那 么 Hive 会 使 用 原生 的 SerDe 来 处 理 表 中 的 行 。STORED 
ASs 语 句 定义 了 表 的 底层 文件 格式 ，LocaTION 显 示 了 表 中 HDFS 中 的 存储 位 置 。 一 旦 使 用 了 
EXTERNAL 关 键 字 ， 就 不 会 额外 创建 HDFS 目 录 。 


38] 


Hive 强 制 每 张 表 必须 对 应 一 个 HDFS 目 录 , 包括 外 表 。 在 本 例 中 , worldcities- 
个 HDFS 目 录 ， 包 含 了 worldcitiespop.txt 文 件 。Hive 不 允许 对 单个 文件 建 
结构 。 


现在 ， 让 我 们 使 用 如 下 DDL 请 句 来 创建 内 表 : 


CREATE TABLE MasteringHadoop.worldcities (code VARCHAR(5), name 
STRING, fullName STRING, region INT, population BIGINT, lat FLOAT, 
long FLOAT) 

COMMENT 'This is the world cities population table' 

PARTITIONED BY (region p INT) 

CLUSTERED BY (code) SORTED BY (code) INTO 2 BUCKETS 

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 

STORED AS SEQUENCEFILE; 


这 个 表 定 义 指 定 了 分 区 列 ， 同 时 也 指定 了 每 个 分 区 的 桶 数 : 2。 此 表 的 底层 文件 格式 是 
SEQUENCEFILE。 分 区 列 不 能 与 其 他 列 重 名 。 当 把 数据 导入 到 表 的 时 候 , 分 区 列 必 须 是 单独 的 列 。 


CLUSTERED 关 键 字 定义 了 分 桶 信息 。 在 上 例 中 ,我们 根据 国家 编码 ( country code ) 进行 分 

桶 ,并 且 指 定 每 个 桶 的 排序 列 ， 桶 的 数量 是 2。 分 桶 时 ，Reduce 任 务 数量 要 等 于 桶 数 ， 这 很 重要 ， 

只 有 这 样 才能 得 到 正确 的 桶 数 。 可 以 通过 两 种 方法 来 实现 ， 一 种 方法 是 为 每 个 作业 显 式 设 定 

Reducef£ At, 另 一 种 方法 是 设置 hive.enforce.bucketing 为 true， 这 样 Hive 会 自动 对 数据 
分 桶 。 
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使 用 以 下 DML 请 句 ， 我 们 将 会 用 之 前 建立 的 外 表 对 上 表 进 行 计算 : 


set hive.enforce.bucketing = true; 

set hive.enforce.sorting = true; 

set hive.exec.dynamic.partition = true; 

set hive.exec.dynamic.partition.mode-nonstrict; 

set hive.exec.max.dynamic.partitions.pernode-1000; 

FROM MasteringHadoop.worldcities external 

INSERT OVERWRITE TABLE MasteringHadoop.worldcities 
PARTITION(region p) 

SELECT code, name, fullName, region, population, lat, long, region 
WHERE region IS NOT NULL; 


表 定 义 中 如 果 有 列 分 区 列 重 名 ， 将 会 抛 出 错误 : 


| FAILED: SemanticException [Error 10035]: Column repeated in 


partitioning columns. 


最 终结 果 是 ， 表 基于 区 域 编 码 ( region code ) 的 不 同 值 进 行 了 分 区 。 每 个 分 区 有 两 个 桶 ， 并 
按照 国家 编码 排序 。 分 区 的 底层 HDFS 目 录 结 构 如 下 所 示 。 每 个 分 区 都 有 独立 的 目录 ， 并 且 分 区 
列 中 的 不 同 值 成 为 了 目录 名 的 一 部 分 。 


pkaranth 
aranth 


rldciti 


4.4.1 动态 分 区 


分 区 有 三 种 类 型 : 静态 分 区 、 动 态 分 区 、 混 合 分 区 。 如 果 在 编译 期 便 可 获取 列 的 分 区 信息 ， 
称 为 静态 分 区 列 。 例 如 ， B E 就 指定 了 列 的 分 区 值 。 相 反 ， 对 于 动态 分 区 列 ， 
在 查询 执行 的 时 候 才 会 确定 


分 区 既然 是 HDFS 目 录 , 那 就 可 以 通过 hdfs put 命 令 直接 向 HDFS 添 加 分 区 。 

E 然而 ， 元 存储 拥有 所 有 表 的 元 数据 ， 它 不 会 自动 识别 这 些 直 接 被 添加 到 HDFS 的 

分 区 。Hive 提 供 了 命令 MSCK REPAIR TABLE tableName;， 可 以 自动 地 更 新 元 

存储 来 恢复 分 区 。 如 果 基 于 亚 马 进 EMR， 这 个 命令 是 ALTER TABLE tableName 
RECOVER PARTITIONS; o 
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用 来 计算 MasteringHadoop.worldcities 表 的 DML 语 句 就 是 基于 动态 分 区 的 。 当 计算 
MasteringHadoop.worldcities_external 表 的 时 候 ， 分 区 列 region_p 的 值 才 被 确定 下 来 。 
如 之 前 的 INSERT. .SELECT DML 语 句 所 示 ， 所 有 的 动态 分 区 列 应 该 出 现在 SELECT 语 句 的 尾部 ， 
并 且 先 后 顺序 需 符 合 PARTITION 中 指定 的 顺序 。region_p 分 区 列 的 值 取 自 EXTERNAL 表 的 region 
JJ, 并且 需 在 SELECT 语 句 的 尾部 指定 。 


动态 分 区 的 语义 
Hive 动 态 分 区 相关 的 一 些 关 键 语义 如 下 。 


O Hive 动 态 分 区 默认 是 关闭 的 。 通 过 在 配置 文件 hive-default.xml 或 hive-site.xml 中 ,设置 
hive.exec.dynamic.partition 为 true 可 启用 此 功能 。 

口 如 果 动 态 导 入 的 数据 与 现 有 分 区 重复 ， 那 么 会 覆盖 现 有 分 区 。 

口 hive.exec.default.partition.name 默 认 值 为 “HIVE_DEFAULT_PARTITION__， 
当 动 态 分 区 列 值 为 空 值 或 者 NULL 时 ， 使 用 此 名 称 。 

a 动态 分 区 有 三 个 限制 ， 相 关 配 置 如 下 。 


m DML 语句 可 生成 的 总 分 区 数 上 限 ， 由 配置 hive.exec.max.dqynamic.partitions 限 
定 ， 默 认 值 为 1000。 如 果 分 区 数 超过 1000， 那 么 MapReduce 作 业 会 抛 出 异常 。 

m 单个 Map 或 Reduce 任 务 所 能 产生 的 分 区 总 数 上 限 ， 由 配置 hive .exec.max.dynamic . 
partitions.pernode 限 定 , 默认 值 为 100。 如 果 有 任务 超过 此 上 限 , 会 产生 致命 错误 。 

m 当 执行 DML 语 名 时， 由 Map 和 Reduce 任 务 总 共产 生 的 文件 数 上 限 ， 由 配置 
hive.exec.max.created.files 限 定 ， 默 认 值 为 100 000。 


如 果 Reduce 任 务 在 执行 动态 分 区 时 超过 了 上 上限， 会 产生 如 下 致命 错误 : 
2014-05-15 08:46:27,647 FATAL [Thread-17]: ExecReducer 


4 (ExecReducer.java:reduce(282)) - 
org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: 


Fatal error occurred when node tried to create too many dynamic 
partitions. The maximum number of dynamic partitions is controlled by 
hive.exec.max.dynamic.partitions and 
hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 100 


a 默认 情况 下 ， 不 允许 所 有 分 区 列 都 是 动态 的 ， 因 为 hive.exec.dynamic.partition. 
mode 默 认 值 是 strict。 在 上 例 中 ， 我们 没有 静态 分 区 列 ， 所 以 动态 分 区 模式 需 设置 为 
nonstrict 语 句 才 能 正常 执行 。 


4.4.2 ”Hive 表 索引 
RDBMS 中 的 索引 可 以 快速 定位 数据 ， 从 而 使 查询 速度 加 快 。 基 于 键 映射 的 数据 索引 结构 ， 
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能 高 效 地 随机 访问 数据 库 记 录 。 索 引 自 身 并 不 保存 整个 数据 ， 只 存放 对 数据 的 引用 。Hive 索 引 类 
似 于 传统 数据 库 中 的 非 聚集 索引 ， 它 们 保存 了 数据 和 数据 所 属 HDFS 块 之 间 的 映射 信息 ， 这 样 
MapReduce 作 业 在 处 理 查询 时 ， 能 跳 过 无 关 的 数据 块 。 下 例 中 ， Hya 紧凑 索引 
( compact ) 和 位 图 索引 (bitmap )。 hon 引 也 是 一 张 表 , 存放 在 HDFS 中 。 命令 DEFERRED REBUILD 
使 Hive 在 下 个 阶段 构建 索引 。 命 令 ALTER INDEX 将 稍 后 构建 索引 : 

USE MasteringHadoop; 

CREATE INDEX worldcities idx compact ON TABLE worldcities (name) 

AS 'COMPACT' WITH DEFERRED REBUILD; 

CREATE INDEX worldcities idx bitmap ON TABLE worldcities (name) AS 


'BITMAP' WITH DEFERRED REBUILD; 
DESCRIBE masteringhadoop  worldcities worldcities idx compact ; 


在 紧凑 索引 表 上 执行 DESCRIBE 操 作 ， 会 输出 如 下 内 容 。 对 于 每 个 分 区 和 桶 ， 索 引 表 都 会 保 
存 一 组 偏 移 量 。 通 过 偏 移 量 可 直接 检索 到 数据 块 。 


hive> DESCRIBE 
masteringhadoop  worldcities worldcities idx compact 7; 


E 


OK 

name string 
.bucketname string 
.offsets array«bigint» 
region p int 


# Partition Information 
# col name data, type comment 


region p int 
Time taken: 0.078 seconds, Fetched: 9 row(s) 


位 图 索引 适用 于 某 列 具有 大 量 相同 值 的 场合 。 位 图 索引 结构 与 索引 表 结 构 类 似 , 但 是 信息 编 
码 有 所 不 同 。_pitmaps 属 性 在 表 记 录 中 存放 1 比特 的 信息 ， 如 果 记录 出 现 某 值 ， 此 属性 存 为 真 ， 
否则 存 为 假 。 位 图 索引 表 的 结构 如 下 所 示 : 


OK 

name string 
_bucketname string 
_offset bigint 
_bitmaps array<bigint> 
region p int 


# Partition Information 
# col name data, type comment 


region p int 
Time taken: 0.083 seconds, Fetched: 10 row(s) 
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4.5 Hive 查询 优化 器 


在 类 型 检查 和 查询 语句 语义 分 析 完 毕 之 后 ， 一 系列 基于 规则 的 转换 将 对 查询 语句 进行 优化 。 
在 此 我 们 将 会 介绍 其 中 一 些 优 化 器 o 通过 实现 org .apache.hadoop.hive.ql.optimizer. 
Transform H, RMT A AEKk 3X BEEDUR — T ERR, MPA Af ParseContext 
对 象 ， 然 后 经 过 转换 再 返回 。Parsecontext 对 象 含 有 当前 操作 树 以 及 其 他 信息 。 


以 下 是 Hive 0.13.0 中 集成 的 一 些 优化 器 。 


D ColumnPruner: 通过 遍历 操作 树 , 确定 查询 基 表 所 必需 的 列 。 通过 在 读 取 基 表 时 插入 

SELECT 语句 ， 基 表 中 任何 多 余 的 列 都 会 被 剪 去 , 这样 降低 了 读 取 、 处 理 和 写 和 的 数据 量 。 

Ūū GlobalLimitOptimizer : M A 询 语句 中 有 操作 符 LIMIT, 这 个 优 化 器 会 设置 

GlobalLimitCtx。 这 有 助 于 下 游 的 优化 规则 能 更 智能 高 效 地 制定 优化 策略 。 

O GroupByOptimizer: 如 果 GROUP BY 的 键 是 分 桶 排序 键 的 超 集 ， 那 么 会 在 Map 端 进行 聚 

集 。 相 应 地 ， 优 化 器 会 小 心地 修改 执行 计划 。 另 外 ， 两 者 键 的 排列 顺序 必须 一 致 。 

O JoinReorder: 基于 用 户 提 示 ， 流 化 后 的 表 会 在 连接 操作 的 最 后 阶段 被 处 理 。 
D PredicatePushdown: 谓词 下 推 这 个 术语 来 源 于 RDBMS 领 域 。 这 其 实 是 个 误 称 ， 实 际 
上 应 该 称 为 谓词 上 推 。 其 思想 是 ， 移 动用 于 过 滤 上 游 数据 的 谓词 ， 使 其 更 接近 数据 源 ， 
减少 下 游 的 数据 处 理 量 ， 节 省 IO 和 网 络 开 销 ， 从 而 大 幅 提高 查询 速度 。 默 认 情 况 下 ， 
PredicatePushdown 是 关闭 的 。 配 置 hive.optimize.ppd property 为 true 可 以 启用 

PredicatePushdowno 

O PredicateTransitivePropagate: 此 优化 规则 把 谓词 传递 给 连接 操作 中 的 另 一 张 连 
接 表 。 当 两 表 互 连 ， 其 中 一 张 表 通过 谓词 对 连接 键 进行 数据 过 滤 ， 那 么 这 表 的 过 滤 谓 词 
也 可 以 应 用 到 另 一 张 表 。 

O BucketingSortingReduceSinkOptimizer: 如 果 源 表 和 目标 都 基于 相同 顺序 的 键 
分 桶 排序 ， 那 么 不 需要 Reduce 任 务 便 可 对 这 些 表 进行 连接 或 插入 操作 。 例 如 ， 对 于 
INSERT OVERWRITE A SELECT * FROM B; ， 如 果 表 A 和 表 B 的 键 都 是 一 样 分 桶 排序 
过 , 那么 只 需 Map 任 务 就 可 处 理 。 没 有 Reduce 任 务 可 以 提高 查询 速度 ， 因 为 避免 了 洗 牌 / 
排序 的 步 又。 

口 LimitPushdownOptimizer: 如 果 带 有 LIMIT 操 作 符 的 语句 没有 过 滤 条 件 ， 那么 Map 任 
务 就 可 优化 为 只 查询 前 K 条 记录 。 这 K 条 记录 接着 传 给 LIMIT 操 作 符 。 这 极 大 地 减少 了 洗 
牌 /排序 阶段 需要 处 理 的 记录 数 。 

D NonBlockingOpDeDupProc: 这 个 优化 器 会 把 多 个 投影 或 多 个 过 滤 条 件 合 并 为 一 个 。 

口 PartitionPruner: 为 了 避免 元 存储 发 生 内 存 洲 出 ， 会 首先 获取 分 区 名 ， 然 后 按 需 获取 

分 区 详细 信息 。 

O ReduceSinkDeDuplication:; 如 果 两 个 Reduce 任 务 拥 有 相同 的 分 区 列 且 顺 序 也 相同 , 

那么 它们 会 被 合并 成 单个 任务 。 


口 RewriteGBUsingIndex: 如 果 列 有 索引 ， 那么 GROUP BY 可 以 不 扫描 基 表 而 只 扫描 索引 
表 来 实现 对 该 列 的 聚合 操作 。 例 如 ，sELECT COUNT(k) FROM A GROUP BY k 可 以 改写 
为 SELECT SUM(_count_of_k) FROM index table GROUP BY k;。 这 个 优化 器 只 对 
部 分 GROUP BY 查询 语句 有 效 。 

O statsoptimizer: 有 许多 查询 结果 可 以 直接 从 元 存储 的 统计 数据 中 获得 ,比如 MIN 、MAX、 
COUNT 之 类 的 语句 ,而 不 用 产生 任何 MapReduce 任 务 。 这 个 优化 器 会 识别 和 优化 此 类 查询 


语句 。 


4.6 DML 进 阶 


Hive 的 数据 操作 语言 功能 与 其 他 顶级 SQL 系 统一 样 ， 提 供 标准 操作 ， 如 JOIN、GROUP BY, 
UNION， 操 作 中 语义 可 能 会 有 略微 差异 。 同 时 也 提供 不 同类 型 的 优化 提示 。 


4.6.1 GROUP BY 操作 
GROUP BY 操作 的 功能 和 标准 同 SQL 一 样 ， 除 了 几 个 高 级 特性 。 
Q Multi-Group-By Inserts: 单个 查询 可 以 包含 多 个 GROUP BY 语句 ， 其 结果 可 以 写 和 人 多 张 表 
或 多 个 HDFS 文 件 。 例 如 : 


FROM src table INSERT OVERWRITE TABLE id count SELECT id,COUNT (id) GROUP BY id INSERT 
OVERWRITE TABLE id sum SELECT id,SUM(id value) GROUP BY id; 


口 Map 侧 进行 GROUP BY 聚合 : 配置 hive .map.aggr 为 true， 可 以 让 Map 任 务 先 进行 聚合 ， 
从 而 提高 查询 性 能 。 


4.6.2 ORDER BY 与 SORT BY 


Hive 中 的 ORDER BY 和 soRT BY 都 可 以 排序 查询 结果 。 区 别 在 于 ，oRDER BY 保证 查询 结果 整 
体 有 序 , 而 SoRT BY 保证 单个 Reduce 任 务 中 的 数据 有 序 , 所 以 如 有 多 个 Reduce 任 务 , 那么 SoRT BY 
只 能 保证 部 分 有 序 。 

显然 ，ORDER BY 只 需要 单个 Reduce 任 务 就 能 保证 查询 结果 整体 有 序 ， 这 可 是 大 数据 集 排序 
中 的 性 能 瓶 贷 。 当 使 用 oRDER BY 语句 的 时 候 ，Hive 默 认 必 须要 有 LIMIT 操 作 符 ， 对 应 的 配置 项 
是 hive.mapred.mode,， 其 默认 值 是 strict。 如 果 设 置 为 nonstrict， 编译 不 会 强制 要 求 有 
LIMIT 操 作 符 ,但 不 推荐 这 么 设置 。 


4.6.3 ”JOIN 类 型 
对 于 多 个 数据 集 或 多 表 的 处 理 ，JoIN 操 作 符 很 重要 。Hive 有 许多 改进 后 的 JoIN 变 体 ， 基 于 
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数据 的 特点 还 提供 了 不 少 连 接 优化 器 。 以 下 是 一 些 有 关 JoIN 的 重要 特性 和 优化 。 


口 Hive 支 持 内 连接 、 外 连接 、 左 半 连 接 。 所 有 连接 类 型 都 基于 等 值 连接 ， 不 支持 模糊 连接 

和 0 连接。 

O 支持 多 表 连 接 。MapReduce 作 业 数 取决 于 连接 列 的 数量 。 如 果 多 表 的 连接 列 都 一 样 , 那么 

只 会 生成 单个 MapReduce 作 业 。 

口 默认 情况 下 ， 连 接 中 的 最 后 一 张 表 会 流 化 到 Reduce 任 务 ， 而 其 余 表 被 缓存 起 来 。 在 连接 
中 把 最 大 的 表 放 在 最 后 处 理 可 获得 更 优 的 性 能 ， 这 很 重要 。 用 户 可 以 使 用 STREAMTABI 
提示 来 覆盖 默认 行为 。 例 如 ， 对 于 SELECT /*+ STREAMTABLE(A)*/ A.x, B.x, C. 
FROM A JOIN B ON (A.key = B.key) JOIN C ON (B.key = C.key) ;o STREAMTABL 
提示 Hive 编 译 需 流 化 表 A ， 而 默认 行为 是 流 化 表 C。 

O JOIN 语句 中 的 WHERE 子 名 会 在 JoIN 操 作 完 成 之 后 过 滤 数 据 行 。 把 wHERE 过 滤 条 件 都 写 在 

对 应 JOIN 的 ON 子 句 ( JOIN 的 连接 列 位 于 此 处 ) 中 不 失 为 一 种 好 做 法 。 


Map 侧 的 连接 

如 果 连 接 中 有 一 张 表 很 小 ， 那 么 可 以 在 Map 任 务 中 直接 进行 连接 操作 ，Hive 中 可 以 使 用 
MAPJOIN 提 示 来 实现 此 功能 。 例 如 ，SELECT /*+ MAPJOIN(A) */ A.x, B.x FROM A JOIN B 
ON (A.key = B.key) 提示 表 A 更 小 ， 可 以 放 人 和 人 缓存， 然后 进行 Map 侧 连接 。 

如 果 连 接 表 都 对 连接 列 分 桶 , 并 且 其 中 一 张 表 的 桶 数 与 另 一 张 表 的 桶 数 相 同 或 是 其 倍数 , 那 
么 就 可 以 在 Map 侧 进行 连接 操作 。 配置 hive.optimize.bucketmapjoin 为 true (默认 false ) 
可 以 开启 此 功能 。 此 功能 又 称 为 桶 化 Map 侧 连接 (bucketized map-side join )。 

如 果 连 接 表 都 对 连接 列 分 桶 , 桶 数 相同 , 并且 桶 中 数据 已 经 依照 连接 列 排 好 序 , 那么 两 表 相 
连 可 以 使 用 归并 排序 (sort-merge )。 然 而 ， 这 个 功能 也 是 非 默认 。 需 要 配置 hive.optimize. 


bucketmapjoin true, hive.optimize.bucketmapjoin.sortedmerg true, hive. 


1j 


tj x E 


input.formatJorg.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat, EJ 
能 又 称 为 桶 化 归并 排序 连接 ( bucketized sort-merge join )。 


配置 hive.auto.convert .join 为 true， 可 以 自动 把 连接 转换 为 Map 侧 连 车 接 ， 不 再 需要 
MAPJOIN 提 示 。 然 而 ， 如 果 要 使 用 桶 化 Map 侧 连接 和 桶 化 归并 排序 连接 ， 这 个 提示 是 必需 的 。 


4.6.4 高 级 聚合 
Hive 主 要 用 于 数据 仓库 分 析 ， 这 就 需要 高 级 聚合 功能 来 多 维度 地 分 析 和 统计 数据 。 


Hive 支 持 分 组 集合 (GROUPING SETS )， 可 以 对 单 表 进行 多 个 GROUP BY 操作 。 这 等 效 于 执 
行 两 名 GROUP BY 语句 ， 然 后 把 结果 UNION。 以 下 演示 了 分 组 集合 的 用 法 : 


SELECT x, y, SUM(z) FROM X GROUP BY x, y GROUPING SETS( (x,y), v): 

这 名 等 效 于 SELECT x, y, SUM(z) FROM X GROUP BY x,y; 和 SELECT null, y, SUM(z) 
FROM X GROUP BY y; 两 者 结果 的 UNION。 

数据 立方 体 (cube) 是 一 种 多 维 数据 结构 ， 用 于 下 钻 、 上 卷 、 聚 合 事实 表 。 Hive 通 过 全 维度 


聚合 事实 表 来 模拟 数据 立方 查询 。 例 如 ，SELECT x, y, z, SUM(a) FROM X GROUP BY x, y, 
z WITH CUBE; 等 效 于 SELECT X,Y,Z, SUM(a) FROM X GROUP BY x,y,x GROUPING SETS 


((x,v,2), QGoy), (yz), (x,2), (x),(y), (z), 0 


Hive 也 支持 上 卷 ( ROLLUP ) 命令 ， 用 于 在 各 个 层级 结构 进行 聚合 计算 。sELECT x, y, Z, 
SUM(a) FROM X GROUP BY x,y,z WITH ROLLUP; 等 效 于 SELECT x,y,z, SUM(a) FROM X 
GROUP BY x,y,z GROUPING SETS ((x,y,z) , (x,y), (x), ()0):;o 


这 里 有 个 隐 式 假设 ， 层 级 x 能 下 钻 到 层级 y， 层 级 y 可 以 反 钼 到 层级 z， 这 会 导致 ROLLUP 为 每 
行 输入 产生 多 行 输出 。 在 上 例 中 ， 对 于 每 个 输入 行 , 会 产生 四 行 带 有 三 个 聚合 键 的 输出 。 聚 合 键 
的 基数 越 大 ，Map 和 Reduce 任 务 的 处 理 边界 越 难 界 定 。 这 种 情况 下 ， 最 好 生成 多 个 MapReduce 作 
业 。 基 数 国 值 可 以 通过 hive.new.job.grouping.set.cardinality 设 置 , 如 果 超 过 此 值 , 会 
启动 额外 的 作业 。 


4.6.5 ”其 他 高 级 语句 
Hive 高 级 用 法 中 还 有 很 多 其 他 语句 。 


O EXPLODE 用 户 定义 表 生 成 函数 ， 可 以 为 单行 输入 输出 多 行 。 例 如 ， 对 数组 类 型 的 列 使 用 

EXPLODE， 会 为 数组 中 的 每 个 元 素 产 生 一 行 。 

口 TaSHHSAMRUM SEES HON We tis 查询 语法 是 SELECT cols FROM table name 

TABLESAMPLE(i OUT OF n)。 这 里 会 从 n 个 桶 中 采样 第 i 个 桶 。TABLESAMPLE 指 令 也 可 
用 于 块 级 别 的 采样 ， 只 需 在 其 中 给 出 采样 的 比例 值 即 可 。 必须 注意 ， 此 时 采样 的 粒度 是 
数据 块 。TABLESAMPLE 同 样 也 可 基于 输入 数据 的 切 分 大 小 和 数据 行 数 进行 数据 采样 。 

口 Hive 提 供 了 一 些 虚 拟 列 可 用 于 特别 的 查询 。INPUT。 FILE _ NAME 显示 Map 任 务 的 输入 文 

件 和 名 ，BLOCK OFFSET INSIDE FILE 显 示 文 件 的 全 局 位 置 。 

O EXPLAIN 指 令 用 于 显示 查询 语句 的 AST ,执行 期 的 DAG 依 赖 以 及 和 DAG 中 各 个 阶段 的 详情 。 


4.7 UDF, UDAF 和 UDTF 


与 Pig 类 似 ，UDF 是 Hive 中 最 重要 的 一 项 扩展 特性 。 在 Hive 中 编写 UDF 更 简单 ， 但 是 UDF 接 
口 没有 定义 所 有 的 重 载 方 法 ,因此 并 不 完整 。 这 是 因为 UDF 可 以 接受 任意 数量 的 参数 ， 所 以 很 难 
定义 出 固定 的 接口 。 执 行 UDF 的 时 候 ，Hive 底 层 使 用 Java 反 射 来 获取 函数 的 参数 列表 。 
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Hive 中 有 以 下 三 种 UDF。 


a 普通 UDF (regula UDF ); 这 种 UDF 读 和 一行， 应 用 Be 产 出 一 行 

Q UDAF: 这 种 UDF 读 入 多 行 ， 进 行 聚 合计 算 后 ， 产 出 一 行 结果 。 SUM 
Heoi, 
O UDTF: 这 是 一 种 生成 函数 ， 即 读 和 一行 后 ， 输 出 多 行 结果 。BEXPLODE 就 是 UDTF。 


以 下 代码 范例 演示 了 如 何 编写 一 个 简单 的 UDF。 每 个 UDF 都 需 继 承 org .apache .hadoop. 
hive.ql.exec package 中 的 UDF 类 。 类 中 没有 需 重 写 的 方法 ,但 必须 编写 至 少 一 个 evaluate 
方法 。 以 下 UDF 的 功能 是 ， 读 入 一 个 string 类 型 的 参数 ， 然 后 转换 为 大 写 返回 。 在 类 中 可 以 编 
写 任意 数量 的 evaluate 方 法 ， 运 行 时 Hive 会 正确 选择 其 中 一 个 。 


package MasteringHadoop; 
import org.apache.hadoop.hive.qgl.exec.UDF; 
public class TOUPPER extends UDF{ 
public String evaluate(String input)( 
return input.toUpperCase(); 
j 


以 下 Hivei EER T A EMEA TUDE, 首先 需要 注册 包含 UDF 的 JAR 文 件 , 然 后 Hive 
元 存储 需要 知道 这 个 UDE 的 存在 。 如 此 一 来 ， 像 Hive 内 带 的 函数 一 样 ， 这 个 UDF 就 可 以 使 用 了 ; 


add jar MasteringHadoop-1.0-SNAPSHOT-jar-with-dependencies.jar; 
CREATE TEMPORARY FUNCTION MASTERINGHADOOPTOUPPER AS 
'MasteringHadoop.TOUPPER'; 

SELECT MASTERINGHADOOPTOUPPER(name) FROM 
MasteringHadoop.worldcities; 


UDAF 实 现 起 来 稍 显 复杂 。 正 如 之 前 两 章 所 述 ， 可 以 分 别 或 同时 对 Map 和 Reduce 任 务 执行 聚 
合 操作 , 但 UDAF 必 须 能 应 对 所 有 这 些 情 况 。 以 下 代码 范例 演示 了 UDAF 如 何在 BIGINT 类 型 的 数 
值 集中 寻找 最 大 值 。 与 UDF 类 似 ，UDAF 继 承 UDAF 类 。 取 代 evaluate 方 法 的 是 evaluator 类 ， 此 类 必 
须 在 UDAF 中 声明 。 运 行 时 ，Hive 通 过 对 UDAF 的 扩展 类 进行 反射 ， 调 用 evaluator 类 中 的 方法 。 


UDFA 中 可 以 包含 任意 数量 的 evaluator 类 。 这 些 都 需 继 承 基 类 UDAFEvaluator。 基 类 
UDAFEvaluator 中 的 init() 是 唯 个 需要 重 写 的 方法 。 在 下 例 中 ,我 们 会 创建 一 个 
MaximumBigIntEvaluator 类 ， 用 于 比较 并 选择 最 大 的 BIGINT 值 。 


init () 方 法 会 初始 化 evaluator 类 的 内 部 状态 。 除 了 init () 方 法 ， 在 进行 聚合 计算 时 会 调用 
iterator() 方 法 , 然后 iterator () 方 法 会 更 新 evaluator 的 状态 , 但 是 Null 值 会 被 忽略 。 运行 时 ， 
Hive 调 用 kerminatePartial() 方 法 来 获取 部 分 结果 。 这 种 情况 通常 都 发 生 在 Map 侧 聚合 完成 
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时 。 至 此 evaluator 必 须 返 回 聚 合 状态 。Hive 调 用 merge () 函数 来 聚合 两 个 部 分 聚合 结果 ， 这 通常 
发 生 在 Reduce 侧 ， 用 于 合并 Map 任 务 返 回 的 部 分 结果 。 最 后 ，Hive 会 调用 Ferminate () 方 法 来 获 
取 最 终 聚 合 结果 : 


package MasteringHadoop; 

import org.apache.hadoop.hive.ql.exec.UDAF; 

import org.apache.hadoop.hive.qgl.exec.UDAFEvaluator; 
import org.apache.hadoop.io.LongWritable; 


public class BIGINTMAX extends UDAF ( 


public static class MaximumBigIntEvaluator 
implements UDAFEvaluator( 


private Long max; 
private boolean empty; 


public MaximumBigIntEvaluator()(í 


super(); 
init(); 

} 

@Override 

public void init()( 
max = (long)O; 


empty - true; 


public boolean iterate(LongWritable value)( 
if(value !- null)( 


long current - value.get(); 
if(empty)t 
max - current; 


empty - false; 


} 


elset 


max - Math.max(current, max); 


} 


return true; 
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public LongWritable terminatePartial()( 
return empty ? null : new LongWritable (max); 


} 


public LongWritable terminate()( 
return empty ? null : new LongWritable (max); 


) 


public boolean merge(LongWritable value)( 
iterate(value); 
return true; 


} 
为 了 让 UDAF 正 常 工 作 ， 这 些 方法 是 必需 的 。 下 图 展示 了 evaluator 方 法 的 调用 流程 : 


8 4 
5 表 8 
11 16 
Try Init () 
Iterate(8) Iterate(4) 
MaximumBigInt- Iterate(5) Iterate(8) MaximumBig- 
Evaluator Iterate(11) Iterate(16) IntEvaluator 
terminateP arital() terminateP arital() 
Init() 
WEE MaximumBigIntEvaluator 
merge(16) 
Terminate|() 
4.8 小结 


Hive 通 过 查询 语言 HiveQL， 把 SQL 和 关系 型 数据 库 的 概念 引入 Hadoop。Hive 主 要 用 来 搭建 
数据 仓库 ， 并 为 应 用 程序 进行 数据 分 析 查 询 ， 比 如 商业 智能 (business intelligence )。Hive 支 持 组 
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件 就 是 用 来 应 对 这 些 案例 的 。 例 如 ， 通 过 使 用 行 - 列 存 储 文件 格式 ， 关 于 列 的 聚合 计算 就 会 变 得 


十 分 高 效 。 
本 章 学 到 的 主要 内 容 如 下 。 


O 必须 密切 关注 Hive 表 底层 所 用 的 文件 格式 。 文 本 文件 很 低 效 。 压 缩 后 的 Sequence 文 件 更 优 。 
从 VO 和 查询 性 能 的 角度 来 讲 ， 特 殊 的 文件 格式 ， 如 RC 和 ORC， 更 适合 。 
Q 高 效 来 自 压缩 。 中 间 结 果 和 最 终结 果 都 可 被 压缩 。 但 最 好 避免 使 用 不 可 切 分 的 压缩 技术 ， 


多 的 分 区 会 对 HDFS 产 生 压 力 。 


如 GZIP。Snappy 可 以 作为 备 选 方案 ， 因 为 它 是 可 切 分 的 压缩 技术 。 
O 对 大 表 进 行 分 区 是 最 佳 实践 ， 它 可 以 在 处 理 查 询 时 预先 过 滤 掉 不 相关 的 数据 。 但 是 ， 过 


口 尽 可 能 地 使 用 Map 侧 的 连接 。 在 连接 的 左 侧 放置 小 表 。 配 置 hive .auto.convert .join 


启用 自动 优化 ， 无 需 手 动 写 提 示 。 正 确 地 配置 hive .mapjoin.smalltable.filesize 


可 以 把 整个 小 表 都 放 入 缓存 。 但 是 ， 需 要 注意 JVM 是 否 有 足够 的 内 存 来 容纳 。 


口 使 用 单个 reducer 的 时 候 要 避免 使 用 ORDI 


PR 语句 。 第 2 章 中 所 提 的 优化 方法 ， 都 可 以 应 用 到 


基于 Hadoop 集 群 的 Hive 查 询 ， 这 会 对 查询 性 能 产生 积极 的 影响 。 
下 一 章 ， 我 们 会 详细 探讨 Hadoop WO， 尤 其 是 文件 压缩 和 Hadoop 文 件数 据 的 序列 化 与 反 序 


列 化 。 


序列 化 和 Hadoop IO 


Hadoop 为 大 数据 而 生 ， 但 不 管 如 何 处 理 数据 ， 讨 论 和 细 化 IO 都 是 安装 过 程 中 的 主要 部 分 。 
源 数 据 来 源 于 网 络 或 从 外 部 存储 载 人 , 这些 数 据 还 需 经 过 提取 和 转换 的 步骤 。 最 后 ， 处 理 结果 会 
保存 下 来 ， 以 供 下 游 应 用 使 用 ， 如 提供 数据 、 产 出 报表 、 数 据 可 视 化 。 以 上 每 个 阶段 都 需要 了 解 
底层 数据 的 存储 结构 、 数 据 格式 和 数据 模型 , 这 样 能 帮助 调 优 整 个 数据 处 理 管道 的 存储 效率 与 处 
理 速 度 。 


本 章 ， 我 们 会 探讨 Hadoop IO 的 功能 和 特性 。 具 体 地 说 ， 我 们 将 讨论 以 下 主题 : 


口 Hadoop 里 对 序列 化 和 反 序 列 化 的 支持 及 其 必要 性 
口 Avro 一 一 一 个 外 部 的 序列 化 框架 

O Hadoop 里 集成 的 数据 压缩 编 解码 器 及 其 权衡 

口 Hadoop 特 有 的 文件 格式 及 其 特性 


5.1 Hadoop 数据 序列 化 


尽管 我 们 看 到 的 数据 是 结构 化 的 形式 ,但 数据 的 原始 形式 是 序列 化 的 比特 或 比特 流 。 数 据 
以 这 种 原始 形式 通过 网 络 传输 , 然后 保存 在 RAM 或 其 他 持久 性 存储 媒介 中 。 序列 化 过 程 就 是 把 
结构 化 的 数据 转换 为 原始 形式 。 反 序列 化 过 程 则 相反 ,是 把 数据 从 原始 比特 流 形式 重建 为 结构 


形式 。 


Hadoop 中 不 同 的 组 件 使 用 远程 调用 ( Remote Procedure Call, RPC ) 进行 交互 。 在 发 送 调用 
函数 名 和 参数 给 被 调 方 之 前 , 调用 方 进程 会 先 把 它们 序列 化 为 字 节 流 。 被 调 方 反 序列 化 这 个 字 节 
Vi. 解释 函数 类 型 , 根据 所 提供 的 参数 执行 函数 , 最 后 序列 化 执行 结果 , 并 返回 给 调用 方 。 当 然 ， 
整个 工作 流 需要 快速 的 序列 化 与 反 序列 化 。 网 络 带宽 十 分 珍贵 , 所 以 需要 序列 化 函数 名 和 函数 参 
数 ， 从 而 尽 可 能 地 减 小 负载 。 不 同 的 组 件 会 以 不 同 的 方式 变化 ， 所 以 整个 序列 化 - 反 序列 化 过 程 
需要 向 后 兼容 和 可 扩展 。 运 行 在 不 同 机 需 上 的 组 件 进 程 会 有 不 同 的 配置 , 并 且 所 利用 的 平台 组 件 
也 不 同 ， 因 此 序列 化 - 反 序 列 化 库 需 要 具备 互 操作 性 能 。 序 列 化 和 反 序 列 化 的 这 些 特 性 不 限于 网 
络 数据 ， 还 适用 于 存储 ， 包 括 易 失 存储 和 持久 存储 。 
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5.1.1 writable 5 WwritableComparable 


Hadoop 序 列 化 和 反 序 列 化 都 使 用 writable 接 口 。 这 个 接口 有 两 个 方法 ，void 
write(DataOutput out) 和 void readFields (DataInput in), write 方 法 序列 化 对 象 为 
字 节 流 。readFields 方 法 则 是 反 序列 化 方法 ， 即 读 取 输 入 的 字 节 流 并 将 其 转换 为 对 象 。 


继承 Writable 接 口 的 是 writableComparable 接 口 。 可 以 说 这 个 接口 是 writable 接 口 和 
Comparable 接 口 的 组 合 。 接 口 的 实现 类 不 但 可 以 方便 地 进行 序列 化 和 反 序列 化 ， 而 且 还 能 对 值 
进行 比较 。 用 Hadoop 数 据 类 型 实现 这 个 接口 ， 可 以 非常 方便 地 排序 和 分 组 数据 对 象 。 如 第 2 章 中 
的 例子 所 示 ， 通 过 自 定义 的 WritableComparable 类 型 实现 了 连接 操作 符 。 


Hadoop 提 供 了 许多 唾 手 可 得 的 Writablecomparable 包 装 类 。 每 个 WritableComparable 
包装 类 对 应 包装 一 个 Java 原 生 类 型 。 例 如 ，Intwritable 包 装 类 包装 了 int 数 据点 (data point ), 
BooleanWritable 包 装 类 包装 了 boolean 类 型 。 


Hadoop 有 VIntwritable 和 VLongWritable 类 ， 它 们 的 长 度 可 变 ， 但 相对 
于 固定 长 度 的 Intwritable 和 LongWritable 类 型 。 处 于 -112 到 127 之 间 的 值 会 
使 用 可 变 长 度数 值 类 型 编码 为 单个 字 节 。 然 而 ， 更 大 的 数值 用 另 一 种 方式 编码 ， 
即 首 字 节 代表 标记 以 及 紧 跟 其 后 的 字 节 数 。 当 数值 分 布 的 方差 很 高 时 ,平均 而 言 ， 
可 变 长 度 的 Writable 能 节省 存储 空间 。 数 值 越 小 ， 所 需 存 储 空间 就 越 小 。 


在 第 2 章 中 ， 为 了 进行 Reduce 侧 连接 ， 我 们 实现 了 自 定 义 的 writablecomparable 类 。 
CompositeJoinKeyWritable 代表 数据 源 里 国家 编码 的 组 合 键 。 除 了 重 写 write 和 
readqFields 方 法 ， 为 了 比较 这 些 自 定 义 类 型 ， 我 们 还 重 写 了 comparerTo 函 数 。 


从 底层 来 看 ， 在 CompositeJoinKeyWritable 里 Writapble 类 型 序列 化 的 方式 很 特别 。 所 
以 我 们 以 Intwritable、LongWritable、VIntWritable 及 VLongWritable 为 例 ， 看 一 下 它 
们 序列 化 后 的 原始 字 节 码 。 

以 下 方法 获取 一 个 Writable 类 型 的 参数 ， 然 后 使 用 write 方 法 把 它 序列 化 为 字 节 流 。 字 节 
流 会 被 转换 成 十 六 进 制 的 字符 串 ， 然 后 显示 在 控制 台 上 。 org.apache.hadoop.util. 
StringUtils 工 具 类 中 有 一 些 静 态 函 数 ， 可 以 帮助 我 们 把 字 节 数组 转换 为 十 六 进 制 字符 串 : 


public static String serializeToByteString(Writable writable) 
throws IOException ( 


ByteArrayOutputStream outputStream - new 
ByteArrayOutputStream(); 

DataOutputStream dataOutputStream - new 
DataOutputStream(outputStream) ; 

writable.write(dataOutputStream); 
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dataOutputStream.close(); 

byte[] byteArray - outputStream.toByteArray(); 

return StringUtils.byteToHexString(byteArray); 
j 


在 学 习 Hadoop 序 列 化 的 例子 中 , 我 们 会 演示 四 个 类 , 以 下 代码 分 别 实例 化 了 这 些 类 。 我 们 把 
三 个 数值 ( 100 代 表 小 整 型 ，1048576 代 表 普 通 整 型 ，4589938592L 代 表 长 整 型 ) 作为 这 些 类 要 序 
列 化 的 对 象 。 


public static void main(String[] args) throws IOExceptiont 


IntWritable intWritable - new IntWritable(); 
VIntWritable vlIntWritable = new VIntWritable(); 
LongWritable longWritable - new LongWritable(); 
VLongWritable vLongWritable - new VLongWritable(); 


int smallInt - 100; 
int mediumInt - 1048576; 
long bigInt - 4589938592L; 


System.out.println("smallInt serialized value using 
IntWritable"); 
intWritable.set(smallInt); 
System.out.println(serializeToByteString(intWritable)); 


System.out.println("smallInt serialized value using 
VIntWritable"); 

viIntWritable.set(smallInt); 
System.out.println(serializeToByteString(vIntWritable)); 


System.out.println("mediumInt serialized value using 
IntWritable"); 
intWritable.set (mediumInt); 

System.out.println(serializeToByteString(intWritable)); 


System.out.println("mediumInt serialized value using 
VIntWritable"); 

viIntWritable.set (mediumInt); 
System.out.println(serializeToByteString(vIntWritable)); 


System.out.println("bigInt serialized value using 
LongWritable"); 

longWritable.set (bigInt); 
System.out.println(serializeToByteString(longWritable)); 


System.out.println("bigInt serialized value using 
VLongWritable"); 

vLongWritable.set(bigInt); 
System.out.println(serializeToByteString(vLongWritable)); 


这 个 程序 使 用 Intwritable 和 VIntwritable 包 装 类 来 序列 化 小 整 型 和 普通 整 型 。Long- 
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WwWzitable 和 VLongwWzitable 用 于 序列 化 数值 更 大 的 长 整 型 。 将 这 些 数值 序列 化 成 字 节 数组 ， 结 
果 如 下 所 示 : 


smallInt serialized value using IntWritable 


00000064 

smallInt serialized value using VIntWritable 
64 

mediumInt serialized value using IntWritable 
00100000 

mediumInt serialized value using VIntWritable 
84100000 

bigInt serialized value using LongWritable 
000000011194e7a0 

bigInt serialized value using VLongWritable 
85011194e7a0 


不 管 存放 的 数值 大 小 ，Intwritable 类 始终 使 用 4 个 字 节 的 固定 长 度 来 表示 一 个 整 型 。 而 
VIntWwritable 类 更 聪明 ， 字 节 数 取决 于 数值 的 大 小 。 对 于 数值 100，vIntwritable 只 使 用 1 个 
字 节 。LongWwritable 和 VLongwritable 在 序列 化 值 的 时 候 有 类 似 区 别 。 


M Text 是 Writable 版 的 String 类 型 。 它 代表 UTF-8 字 符 集合 。 相 比 Java 的 
String 类 ， Hadoop 中 的 Text 类 是 可 变 的 。 


5.1.2. Hadoop 5 Java 序列 化 的 区 别 


在 此 有 一 个 疑问 ， 为 什么 Hadoop 用 writable 接 口 来 序列 化 而 不 使 用 Java 序 列 化 ?让 我 们 试 
着 用 Java 的 数据 类 型 和 序列 化 功能 对 上 例 中 的 数值 进行 序列 化 。 对 于 Java 序 列 化 ， 我 们 会 使 用 如 
下 静态 方法 : 


public static String javaSerializeToByteString(Object o) throws 
IOException(í 
ByteArrayOutputStream outputStream - new 
ByteArrayOutputStream(); 
ObjectOutputStream objectOutputStream - new 
ObjectOutputStream(outputStream); 
objectOutputStream.writeObject(o); 
objectOutputStream.close(); 


byte[] byteArray - outputStream.toByteArray(); 
return StringUtils.byteToHexString(byteArray); 


} 


Java 提 供 obj ectOutputStream 类 来 把 对 象 序列 化 为 字 节 流 o ObjectOutputStream Œ 
有 writeobject 方 法 。 用 下 列 代码 对 以 上 三 个 数据 进行 序列 化 : 
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System.out.println("smallInt serialized value using Java 


serializer"); 
l1n(javaSerializeToByteString (new 
lInt))); 


System.out.prin 
Integer(sma 


HA ctf — c 


System.out.println("mediumInt serialized value using Java 
serializer" 
System.out.prin 


Integer (med 


l1n(javaSerializeToByteString (new 
umInt))); 


H cf — ct 


tln("bigInt serialized value using Java 
serializer"); 
tln(javaSerializeToByteString(new Long(bigInt))); 


System.out.prin 


System.out.prin 


输出 结果 如 下 : 


smallInt serialized value using Java serializer 
aced0005737200116a61766126e6c6166e672e496e746567657212e2a0a4£7818738 
02000149000576616c7565787200106a61766126e6c616e672e4e7564d62657 
286ac951d0594e085020000787000000064 
mediumInt serialized value using Java serializer 
aced0005737200116a61766126e6c6166e672e496e746567657212e2a0a4£7818738 
02000149000576616c7565787200106a617661266c6166e672e4e7564d6265 
7286ac9514d0594e085020000787000100000 
bigInt serialized value using Java serializer 
aced00057372000e6a6176612e66c616e672e4c6£6e673508be490cc8£23d£020001 
4a000576616c7565787200106a617661266c616e672e4e7564d62657286ac9 
5180594e08500200007870000000011194e7a0 


显然 ,这 个 序列 化 后 的 值 大 于 writable 序 列 化 后 的 值 。Hadoop 是 在 磁盘 或 网 络 上 进行 序 
列 化 和 反 序 列 化 的 ， 所 以 简洁 有 效 极为 重要 。 而 Java 序 列 化 因为 要 标识 对 象 ， 所 以 消耗 了 更 多 
BIS T. 


Java 不 假设 序列 化 的 值 类 型 ， 这 是 Java 序 列 化 低 效 的 根本 原因 。 这 就 需要 在 每 个 序列 化 结果 
中 标记 类 相关 的 元 数据 。 然 而 ，wrzitable 类 则 从 字 节 流 中 读 取 字段 ， 并 假设 字 节 流 的 类 型 。 更 
简洁 的 序列 化 结果 极 大 地 提高 了 性 能 。 但 是 这 样 增 加 了 Hadoop 新 手 的 学 习 难 度 。 另 一 个 缺点 是 


Writable 类 只 适用 于 Java 编 程 语言 。 

编写 自 定义 的 writable 类 很 乏味 ， 因 为 开发 人 员 不 得 不 考虑 网 络 传输 中 的 类 格式 。Hadoop 
中 临时 引入 了 Record IO， 这 个 功能 使 用 了 记录 定义 语言 (record definition language )， 同 时 提供 
了 编译 器 能 把 记录 定义 转换 为 writable 类 。 最 终 ， 这 个 功能 被 废弃 ，Avro 取 而 代 之 。 


在 Hadoop 0.17 之 前 ， 任 何 MapReduce 程 序 中 ，Map 和 Reduce 任 务 的 键 和 值 都 
. 基于 Writable 类 。 然 而 ， 在 之 后 的 版 本 ，Hadoop 中 的 MapReduce 作 业 可 以 与 任 
何 序列 化 框架 集成 。 这 使 得 有 很 多 序列 化 框架 可 供 选 择 。 每 个 序列 化 框架 都 带 来 
了 性 能 提升 ， 有 的 是 以 简洁 见长 ， 有 的 是 以 序列 化 和 反 序 列 化 速度 见长 ， 或 两 者 
兼备 。 
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5.2 Avro 序列 化 
Avro 是 一 个 流行 的 数据 序列 化 框架 ， 是 Apache 软 件 基 金 会 的 一 部 分 。 其 主要 特点 如 下 。 


口 支持 多 种 数据 结构 的 序列 化 。 
a 支持 多 种 编程 语言 ， 而 且 序列 化 速度 快 、 字 节 紧 凑 。 
口 Avro 代码 生成 功能 是 可 选 的 。 无 需 生成 类 或 代码 ， 即 可 读 写 数据 或 使 用 RPC 传 输 数 据 。 


Avro 使 用 schema 来 读 取 和 写 和 人 数据 。schema 有 助 于 简洁 标识 序列 化 后 的 对 象 。 在 Java 序 列 化 
中 ， 对 象 类 型 的 元 数据 会 被 写 和 人 序列 化 后 的 字 节 流 中 ， 而 schema 的 自 解释 能 力 可 以 避免 这 么 做 。 
JavaScript 对 象 表示 法 ( Javascript Object Notation, JSON ) 用 于 描述 schema， 这 是 一 种 在 网 络 编 
程 中 很 流行 的 对 象 表 示 法 。 在 处 理 数据 时 ， 通 过 新 旧 schema 并 存 的 方式 来 应 对 schema 的 变化 。 


以 下 是 Avro 中 的 两 个 schema 文 件 。 第 一 个 文件 是 worldcitiespop.txt 文 件 对 应 的 schema 文 件 ， 
第 二 个 文件 是 countrycodes.txt 对 应 的 schema 文 件 : 


{"namespace": "MasteringHadoop.avro", 

"type": "record", 

"name": "City", 

"fields": [ 
("name": "countryCode", "type": "string"), 
("name": "cityName", "type": "string"), 
("name": "cityFullName", "type": "string"), 
("name": "regionCode", "type": ["int","null"]), 
("name": "population", "type": ["long", "null"]), 
("name": "latitude", "type": ["float", "null"]), 
("name": "longitude", "type": ["float", "null"]) 

] 

} 

{"namespace": "MasteringHadoop.avro", 

"type": "record", 

"name": "Country", 

"fields": [ 
("name": "countryCode", "type": "string"), 
("name": "countryName", "type": "string") 


] 
} 


Schema 是 自 解释 的 ， 同 时 JSON 表 示 法 提高 了 可 读 性 。Avro 支 持 所 有 标准 的 原生 数据 类 型 。 
另外 ，Avro 还 支持 复合 数据 类 型 ， 如 联合 (union )。Null 值 字段 是 null 和 其 字段 类 型 的 联合 。 联 合 
在 语法 的 形式 上 表现 为 JSON 数 组 。 

我 们 用 之 前 定义 的 city schema， 把 基于 CSV 文 本 格式 的 文件 worldcitiespop.txt 转 换 成 Avro 文 
件 。 以 下 代码 演示 了 写 和 人 Avro 文件 的 重要 步 又。 静态 方法 csvToAvro 包 含 主要 的 转换 代码 。 这 个 
方法 获取 参数 csvFilePath、avroFilePath (输出 文件 的 路 径 ) 和 schema 文 件 的 存放 路 径 。 
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Avro 中 有 个 特别 的 Schema 类 ， 对 schema 文 件 的 解析 就 是 初始 化 该 类 的 对 象 。schema 不 会 生成 代 
码 ， 所 以 我 们 使 用 cenericRecord 来 初始 化 schema， 并 用 它 来 写 人 数据 点 。 如 果 schema 被 用 来 
生成 代码 ， 那 么 结果 就 是 city 类 ,会 和 其 他 Java 类 一 样 ， 直 接 导入 (import ) 到 以 下 代码 中 。 


DataFileWriter 类 把 实际 记录 写作 到 文件 。 它 有 个 create 方 法 ， 用 于 创建 Avro 的 输出 文 
件 。 使 用 BufferedReader 对 象 ， 可 以 让 我 们 人 CSV 文件 中 一 次 4 和 地 读 取 每 个 城市 记录 。 
getcity 辅 助 方法 读 取 一 行 ， 然 后 以 符号 逗号 把 一 行 切 分 为 各 个 标记 字符 串 ， 并 产生 一 个 
GenericRecord 对 象 。 x ey 其 构造 函数 的 参数 是 一 
个 Schema 对 象 。 


调用 put 方 法 并 传人 参数 ， 记 录 字 段 名 和 对 应 的 值 ， 就 可 写 人 GenericRecord 对 象 。 
isNumeric 方 法 用 于 验证 经 过 标记 处 理 后 的 字符 串 是 否 是 数字 。 坏 记录 会 被 跳 过 , 从 而 不 会 被 写 
和 人 Avro 文件 。 如 果 某 个 字段 没有 使 用 put 方 法 进行 设 值 ， 那 么 这 个 字段 的 值 会 被 认为 是 nul1: 


public static void CsvToAvro(String csvFilePath, String 
avroFilePath, String schemaFile) throws IOException(í 


// ikH schema 

Schema schema - (new Schema.Parser()).parse(new 
File(schemaFile)); 

File avroFile - new File(avroFilePath); 


DatumWriter«GenericRecord»datumWriter = new 
GenericDatumWriter«» (schema); 
DataFileWriter«GenericRecord»dataFileWriter - new 
DataFileWriter«»(datumWriter); 
dataFileWriter.create(schema,avroFile); 


BufferedReader bufferedReader - new BufferedReader (new 
FileReader(csvFilePath)); 
String commaSeparatedLine; 
while((commaSeparatedLine = bufferedReader.readLine()) !- null)( 


GenericRecord city - getCity(commaSeparatedLine, schema); 


dataFileWriter.append(city); 
} 


dataFileWriter.close(); 
} 

private static GenericRecord getCity(String commaSeparatedLine, 
Schema schema)(í 


GenericRecord city - null; 
String[] tokens - commaSeparatedLine.split(","); 
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// 过 滤 坏 记录 
if(tokens.length == 7)( 
city - new GenericData.Record(schema); 
city.put("countryCode", tokens[0]); 
city.put("cityName", tokens[1]); 
city.put("cityFullName", tokens[2]); 


if(tokens[3] !- null && tokens[3].length() > 0 
&&isNumeric (tokens[3]))(€ 
city.put("regionCode", Integer.parseInt(tokens[3])); 
j 


if(tokens[4] !- null && tokens[4].length() > 0 
&&isNumeric(tokens[4]))( 
city.put("population", Long.parseLong(tokens[4])); 
j 


if(tokens[5] !- null && tokens[5].length() > 0 
&&isNumeric (tokens[5]))€4 
city.put("latitude", Float.parseFloat (tokens[5])); 
j 


if(tokens[6] !- null && tokens[6].length() > 0 
&&isNumeric (tokens[6]))€ 
city.put("longitude", Float.parseFloat(tokens[6])); 
j 
j 


return city; 


} 


public static boolean isNumeric(String str) 
{ 
try 
{ 
double d = Double.parseDouble (str); 
} 


catch(NumberFormatException nfe) 


( 


return false; 


} 


return true; 


} 


5.2.1 Avro E MapReduce 


Hadoop 广 泛 支持 在 MapReduce 作 业 中 使 用 Avro 序列 化 和 反 序 列 化 。 在 Hadoop 1.X 中 ， 需 要 使 
用 特殊 的 类 ，AvroMapper 与 AvroReducer。 然 而 ， 在 Hadoop 2.X 中 ， 只 需 重 用 内 置 的 Mapper 
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与 Reducer 类 即 可 。AvroKey 可 以 作为 Mapper 与 Reducer 类 的 输入 或 输出 类 型 。 


AvroKeyInputFormat 是 一 个 特殊 的 InputFormat 类 ， 用 于 从 输入 文件 中 读 取 AvroKey。 
worldcitiespop.avro 由 之 前 的 程序 生成 ， 以 下 代码 读 取 这 个 文件 并 计算 每 个 国家 的 人 口 数 。 
Mapper 代 码 如 下 所 示 。 我 们 把 schema 信 息 作为 字符 串 ， 通 过 男 一 种 方式 进行 传播 。 在 以 下 代码 
中 ， 通 过 对 configuration 对 象 设置 一 个 键 进行 传播 。 当 然 ，Distributedcache 也 可 用 于 传 
播 schema 文 件 。setup 方 法 重 写 后 用 于 在 Map 任 务 中 读 取 schema。 


map 方 法 基于 传播 过 来 的 schema， 读 取 GenericRecord 数 据 对 象 : 


package MasteringHadoop; 


import org.apache.avro.Schema; 

import org.apache.avro.generic.GenericRecord; 

import org.apache.avro.mapred.AvroKey; 

import org.apache.avro.mapreduce.AvroJob; 

import org.apache.avro.mapreduce.AvroKeyInputFormat; 
import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.mapreduce.*; 

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
import java.io.File; 

import java.io.IOException; 

import java.net.URI; 

import java.net.URISyntaxException; 


public class MasteringHadoopAvroMapReduce { 


private static String citySchema = "{\"namespace\": 
NV"MasteringHadoop.avroNV", Mn" + 
" \"type\": \"record\",\n"+ 
" \"name\": \"City\",\n"+ 
" \"fields\": [\n"+ 
" (N"nameV": \"countryCode\", \"type\": 
EN 
" (N"nameV": \"cityName\", \"type\": 
\"string\"}, Nn" 
y {\"name\": \"cityFullName\", \"type\": 
\"string\"},\n"+ 
{\"name\": \"regionCode\", \"type\": 
[N"intV", V"nu11N"]) , Nn" 
" (N"nameNV": MV"populationN", WV'"typeV":[N"l1ongNV", V"null1N"]), Nn" 
p {\"name\": \"latitude\", \"type\": [\"float\",\"null\"]},\n"+ 
: {\"name\": \"longitude\", \"type\": [\"float\",\"null\"]}\n"+ 
" J\n"+ 


"y"; 


public static class MasteringHadoopAvroMapperextends 
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Mapper«AvroKey«GenericRecord», NullWritable,Text, 
LongWritable» ( 


private Text ccode - new Text(); 
private LongWritable population - new LongWritable(); 
private String inputSchema; 


GOverride 
protected void setup(Context context)throws IOException, 
InterruptedException { 
inputSchema - context.getConfiguration().get("citySchema"); 


j 
GOverride 
protected void map(AvroKey«GenericRecord» key,NullWritable value, 


Context context) throws IOException, InterruptedException { 


GenericRecord record - key.datum(); 


String countryCode - (String) 

record.get("countryCode"); 

Long cityPopulation - (Long) record.get("population"); 
if (cityPopulation !- null) ( 


ccode.set(countryCode); 
population.set(cityPopulation.longValue()); 
context.write(ccode, population); 


} 


以 下 Reducer 人 代码 基于 国家 编码 进行 聚合 ， 计 算 总 人 口 数 。main 函 数 设置 ob 相关 配置 。 这 
里 有 个 特殊 的 AvzoJob 类 ， 用 于 在 Jop 的 配置 里 设置 Avro 相关 的 属性 。 


public static class MasteringHadoopAvroReducer extends 
Reducer«Text, LongWritable, Text, LongWritable»(í 


private LongWritable total - new LongWritable(); 


GOverride 
protected void reduce(Text key, Iterable«LongWritable» values, 
Context context) throws IOException, InterruptedException { 
long totalPopulation - 0; 


for(LongWritable pop : values)( 
totalPopulation «- pop.get(); 
j 


total.set(totalPopulation); 
context.write(key, total); 


} 
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public static void main(String args[]) throws IOException, 
InterruptedException, ClassNotFoundException, 
URISyntaxException(í 


GenericOptionsParser parser = new GenericOptionsParser (args); 
Configuration config - parser.getConfiguration(); 
String[] remainingArgs - parser.getRemainingArgs(); 


config.set("citySchema", citySchema); 


Job job - Job.getInstance(config, "MasteringHadoop- 
AvroMapReduce"); 


ob.setMapOutputKeyClass(AvroKey.class); 
ob.setMapOutputValueClass (Text.class); 
ob.setOutputKeyClass(Text.class); 
ob.setOutputValueClass (LongWritable.class); 


Cod: GR. 6. 


job.addCacheFile(new URI(remainingArgs[2])); 


ob.setMapperClass (MasteringHadoopAvroMapper.class); 
ob.setReducerClass (MasteringHadoopAvroReducer.class); 
ob.setNumReduceTasks (1) ; 


t3; Goods 


Schema schema - (new Schema.Parser()).parse(new 
File(remainingArgs[2])); 
AvroJob.setInputKeySchema(job, schema); 


job.setInputFormatClass(AvroKeyInputFormat.class); 
job.setOutputFormatClass(TextOutputFormat.class); 


AvroKeyInputFormat.addInputPath(job, new Path(remainingArgs[0])); 
TextOutputFormat.setOutputPath(job, new Path(remainingArgs[1])); 


job.waitForCompletion(true); 


5.2.2 Avro 5 Pig 


Pig 通 过 扩展 可 以 支持 Avro。aAvroSstorage 实 现 了 LoaqFunc 与 StoreFunc 接 口 ， 来 支持 读 
取 Avro 文 件 。 然 而 ，Pig 和 Avro 集成 后 有 一 些 限制 和 假设 ， 如 下 所 示 。 


口 AvroStorage 不 支持 内 网 记录 类 型 。 
口 KS (union) 只 支持 null 值 。 
a 假设 目录 或 子 目 录 中 的 所 有 文件 都 有 同样 的 schema。 
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口 当 使 用 Avrostorage 将 数据 保存 为 Avro 格式 的 时 候 ， 所 有 字段 都 将 是 null 值 联合 
( null-valued union )， 因 为 Pig 中 没有 非 null 值 (non-null-valued ) 的 字段 。 

O 当 在 Pig 关 系 中 调用 STORE 时 ， Avro 文件 中 可 能 会 含有 TUPLE 包 装 类 。 

口 不 支持 基于 JSON 编 码 的 Avro 文件 。 

口 AvroStorage 不 支持 数据 类 型 map。 

O 使 用 Avrostorage 后 ， 不 会 进行 列 裁剪 (column-pruning ) 优化 。 


以 下 范例 演示 了 如 何 把 countrycodes ,avro 载 人 到 Pig 关 系 中 去 。 为 了 使 Avrostorage 在 
Pig 中 能 正常 工作 ， 一定 要 注册 一 些 JAR 文 件 : 


REGISTER avro-1.4.0.jar 

REGISTER json-simple-1.1.jar 

REGISTER piggybank.jar 

avroCountry - LOAD 'countrycodes.avro' USING 


AvroStorage('í("namespace": "MasteringHadoop.avro", 
"type": "record", 
"name": "Country", 
"fields": [ 
("name": "countryCode", "type": "string"), 
("name": "countryName", "type": "string") 


5.2.3 Avro 5 Hive 


Hive 有 个 SerDe 模 块 称 为 AvroSserde， 可 以 使 用 Avro 来 读 写 Hive 表 。 它 能 自动 从 Avro 的 输入 
推断 出 Hive 表 的 schema。 大 多 数 的 Avro 类 型 都 有 对 应 的 Hive 表 类 型 。 如 果 某 些 Avro 类 型 在 Hive 中 
不 存在 ， 它 们 会 被 自动 转换 为 Hive 中 已 有 的 类 型 。 


M Avro 有 枚 举 的 概念 , 但 Hive 没 有 。 所 有 Avro 中 的 枚 举 类 型 会 转换 成 Hive 中 的 
字符 串 类 型 。 


让 我 们 通过 外 部 Avro 文件 和 schema country .avschema 来 建 一 张 Hive 表 。Hive 的 DDL 语 句 
如 下 所 示 : 


CREATE EXTERNAL TABLE avrocountry 

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' 
STORED AS 

INPUTFORMAT 
'org.apache.hadoop.hive.gl.io.avro.AvroContainerInputFormat' 
OUTPUTFORMAT 
'org.apache.hadoop.hive.gl.io.avro.AvroContainerOutputFormat ' 
LOCATION '/user/sandeepkaranth/avrocountrydata' 


TBLPROPERTIES ( 'avro.schema.literal'-' 
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("namespace": "MasteringHadoop.avro", 

"type": "record", 

"name": "Country", 

"fields": [ 
("name": "countryCode", "type": "string"), 
("name": "countryName", "type": "string") 


] 
i') 


DDL 语 句 的 关键 内 容 如 下 。 


a 使 用 Avroco ntainerInputFormat 作 为 表 的 InputFormat。 

口 使 用 AvrocontaineroutputFormat 作 为 表 的 OutputFormat。 
口 TBLPROPERTIES 中 有 schema 的 定义 ，schema 可 以 写 人 一 个 文件 里 ， 然 后 通过 一 个 链接 指 
向 这 个 schema 文 件 ， 或 直接 写 在 TBLPROPERTIES 里 ， 如 上 面 的 DDL 语 句 就 是 这 么 做 的 。 
如 果 通 过 URL 或 链接 来 定义 schema ， 属 性 名 应 使 用 avro.schema.url 而 不 是 


avro.schema.literals 


avrocountry 表 的 描述 信息 ， 显 示 了 从 Avro 的 schema 解 释 而 来 的 Hive 表 结构 ， 如 下 所 示 : 


hive> describe avrocountry; 


OK 
countrycode string from deserializer 
countryname string from deserializer 


Time taken: 0.155 seconds, Fetched: 2 row(s) 


A 当 把 数据 写 入 表 时 ， 所 有 null 值 的 列 (null-valued column ) Æ Avro-schema 
Q 定义 中 需 指定 为 列 类 型 和 null 的 联合 。 


5.2.4 比较 Avro 与 Protocol Buffers / Thrift 


可 以 与 Avro 同 台 较量 的 还 有 其 他 的 序列 化 / 反 序 列 化 库 , 其 中 比较 流行 的 包括 Thrift 和 Protocol 
Buffers。Avro 和 这 些 框架 有 如 下 几 点 区 别 。 


O Avro 支持 动态 类 型 ， 如 果 为 了 满足 性 能 要 求 也 支持 静态 类 型 。Protocol Buffers 和 Thrift 使 
用 接口 描述 语言 (Interface Definition Language, IDL ) 来 定义 schema 及 其 类 型 。 这 些 IDL 
用 于 生成 序列 化 和 反 序 列 化 的 代码 。 在 构建 统一 数据 处 理 管道 的 时 候 , 使 用 IDL 会 降低 系 


统 灵活 性 。 

口 Avro 内 置 于 Hadoop ， 但 是 其 他 的 框架 并 非 如 此 。Hadoop 生 态 圈 的 组 件 同样 支持 Avro， 如 
Hive 和 Pig。 

口 Avro 的 schema 定 义 用 JSON 描 述 ， 而 不 是 任何 专 有 的 IDL。 这 样 Avro 便 在 开发 人 员 中 流行 


了 起 来 ， 因 为 JSON 早 已 演化 成 网 络 界 通用 的 对 象 标记 。 同 理 ，Avro 也 支持 多 语言 。 
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5.3 文件 格式 


有 很 多 文件 格式 自身 也 是 数据 结构 。 在 Hive 那 童 中, 我 们 介绍 了 ORC 文 件 一 一 优化 记录 列 式 
文件 存储 。Hadoop 还 支持 其 他 一 些 流行 的 文件 格式 ， 我 们 会 在 本 节 进 行 介绍 。 


5.3.1 Sequence 文件 格式 


Sequence 文 件 是 包含 二 进 制 键 值 对 的 一 种 文件 格式 。Sequence 文 件 中 的 每 条 记录 都 含有 一 个 
键 和 键 对 应 的 值 。Sequence 文 件 把 多 个 较 小 的 文件 合并 成 单个 较 大 的 文件 , 这 样 可 以 缓解 Hadoop 
中 由 于 小 文件 过 多 而 产生 的 问题 。 此 时 ,文件 名 作为 键 ， 键 的 值 就 是 文件 内 容 。Sequence 文 件 因 
为 可 以 切 分 成 可 配置 的 数据 块 ， 所 以 得 到 广泛 应 用 。Sequence 文 件 还 能 和 快速 压缩 方法 集成 ， 如 
LZ0O 或 Snappy， 从 而 在 提高 处 理 速 度 的 同时 ， 还 能 减少 存储 和 带宽 的 消耗 。 


下 图 展示 了 Sequence 文 件 的 内 部 格式 。 文 件 的 开头 是 一 个 魔 数 (magic number )， 即 SEQ 的 二 
进 制 表示 ， 之 后 是 1 个 版 本 字 节 和 头 部 信息 (header )。 头 部 信息 存 有 文件 的 元 数据 ， 如 键 和 值 的 
类 名 (字符 串 形 式 的 名 字 )。 比 如 键 或 值 属于 Text 类 , 那么 org .apache .hadoop.io.Text 就 会 
写 和 人 头 部 。 类 名 后 面 是 布尔 值 ， 表 示 是 否 启用 了 压缩 ， 而 块 压缩 也 是 按 此 顺序 启用 。 之 后 会 写 人 
压缩 编 解码 器 的 类 名 ， 接 着 是 用 户 相关 元 数据 的 键 值 对 ， 最 后 头 部 信息 会 以 同步 (sync) 标记 结 
尾 。 同 步 标记 也 能 用 来 标记 文件 中 记录 的 边界 ,而 且 它 们 都 是 随机 生成 的 。 因 为 同步 标记 会 有 存 
储 开 销 ， 所 以 它们 的 总 大 小 不 会 超过 总 文件 大 小 的 1%。 这 也 就 意味 着 ， 同 步 标记 会 出 现在 一 组 


记录 的 后 面 。 


无 压缩 的 Sequence 文 件 


RE 


块 压缩 的 Sequence 文 件 


ases, | 压缩 的 键 | 二 全 的 全 | 压缩 的 值 | us 


块 格式 
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每 条 记录 都 包含 对 应 的 元 数据 , 如 记录 长 度 和 键 长 度 。 键 和 值 的 实际 内 容 以 字 节 的 形式 跟 在 
元 数据 之 后 。 长 度 用 Intwritable 类 序列 化 为 4 字 节 的 整 型 值 。 如 果 启 用 了 记录 压缩 ， 会 使 用 头 
部 信息 中 定义 的 压缩 编 解 码 器 来 压缩 值 ， 但 这 不 会 改变 记录 结构 。 


M 
| Q 当 启用 压缩 的 时 候 ， 键 不 会 被 压缩 。 


进行 块 压缩 时 ， 记 录 被 分 组 成 块 。 块 大 小 的 最 小 值 由 io .seqfile.compress.blocksize 
属性 决定 。 在 每 个 块 的 开始 位 置 会 写 和 一 个 同步 标记 。 这 个 同步 标记 为 16 字 闻 , 由 (UID() + '@' + 
时 间或 网 络 地 址 ) 表达 式 的 hash 值 所 组 成 。 块 压缩 也 会 对 键 做 压缩 。 块 使 用 vIntwritable 序 列 
化 来 存储 记录 数 、 键 长 度 和 键 。 
读 写 Sequence 文 件 
以 下 代码 演示 了 如 何 使 用 seauenceFile 格 式 来 读 写 文件 。writesequenceFile 方 法 获取 mm 
竺 转换 的 源 文件 路 径 和 输出 文件 路 径 这 两 个 参数 。seauenceFile 类 中 的 createWriter 静 态 方 


法 用 于 创建 写 和 人 处理 器 。 写 人 处 理 器 的 appena 方 法 获取 键 和 值 ， 并 把 它们 追加 写 和 文件。 以 下 
代码 读 取 一 个 CSV 文 件 ， 然 后 以 行 数 为 键 ， 行 内 容 为 值 写 人 输出 文件 。 


package MasteringHadoop; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.*; 

import org.apache.hadoop.util.ReflectionUtils; 
import java.io.BufferedReader; 

import java.io.IOException; 

import java.io.InputStreamReader; 

import java.net.URI; 


public class MasteringHadoopSequenceFile { 


public static void writeSequenceFile(String textFile, String 
segFile) throws IOException ( 


Path readPath - new Path(textFile); 
Path writePath = new Path(segFile); 
Configuration conf - new Configuration(false); 


FileSystem fs - FileSystem.get(URI.create(textFile), conf); 
BufferedReaderbufferedReader - null; 
SequenceFile.WritersequenceFileWriter - null; 


tryt 
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bufferedReader = new BufferedReader 
(newInputStreamReader(fs.open(readPath))); 


sequenceFileWriter = SequenceFile.createWriter(conf, 
SequenceFile.Writer.file(writePath), 
SequenceFile.Writer.keyClass(LongWritable.class), 
SequenceFile.Writer.valueClass(Text.class)); 

String line - null; 
LongWritable key - new LongWritable(); 

Text value - new Text(); 
long lineCount = 0; 


while((line - bufferedReader.readLine()) !- null)( 
key.set(lineCount); 
lineCount--«; 
value.set(line); 
sequenceFileWriter.append(key, value); 


j 
catch(IOException ioEx)( 
ioEx.printStackTrace(); 

j 
finally( 
if(sequenceFileWriter !- null) 
sequenceFileWriter.close(); 


if(bufferedReader !- null) 
bufferedReader.close(); 
j 
j 


以 下 函数 使 用 sequenceFile.Readet 读 取 Sequence 文 件 。 我 们 可 以 从 Sequence 文 件 的 头 部 
言 息 中 获取 键 和 值 的 类 型 。ReflectionUtils 有 些 工具 方法 可 以 基于 这 些 类 型 创建 对 象 。 读 取 
文件 时 ，syncSeen 方 法 可 指出 在 文件 中 是 否 遇 到 了 同步 标记 。 


public static void readSequenceFile(String segFile) throws 
IOException(í 


Path readPath = new Path(segFile); 
Configuration conf - new Configuration(false); 
FileSystem fs = FileSystem.get(URI.create(seqFile), conf); 


SequenceFile.Reader reader - null; 


tryg 
reader = new SequenceFile.Reader(conf, 
SequenceFile.Reader.file(readPath)); 
Writable key - 
(Writable)ReflectionUtils.newInstance(reader.getKeyClass(),conf); 
Writable value - 
(Writable)ReflectionUtils.newInstance(reader.getValueClass(),conf); 
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while(reader.next (key,value))( 
System.out.println("key: " + key.toString()); 
if(reader.syncSeen())( 
System.out.println("sync: "); 


) 


} 
} 
catch(IOException ioEx)( 
ioEx.printStackTrace(); 
} 
finally( 
if(reader !- null)( 
reader.close(); 
} 
} 
} 


public static void main(String[] args)( 


tryt 
writeSequenceFile(args[0], args[1]); 
readSequenceFile(args[1]); 

) 
catch(IOException ioEx)( 
ioEx.printStackTrace(); 


) 


) 
以 下 Hadoop 指 令 也 可 以 读 取 Sequence 文 件 : 


hadoop fs -text /user/sandeepkaranth/countrycodes.seq 


5.3.2 MapFile 格式 


从 结构 上 来 说 , MapFile 和 sequenceFile 一 样 。 此 外, MapFile 文 件 中 提供 了 对 键 的 索引 。 
MapFile 的 键 必 须 是 writableComparable 类 型 ， 值 必须 是 writable 类 型 。 而 SequenceFile 
的 键 和 值 可 通过 任何 序列 化 框架 进行 序列 化 。 


创建 MapFile 后 ， 会 生成 两 个 相关 文件 ， 一 个 存 有 数据 ， 另 一 个 存 有 索引 。 这 些 文 件 都 是 
SequenceFile 类 型 ,数据 sequenceFile 存 有 所 有 数据 记录 , 并 以 键 排序 。 索 引 SsedquenceFile 
存 有 键 和 其 在 文件 中 的 偏 移 量 ,索引 文件 中 的 键 是 通过 采样 而 得 的 ,所 以 其 中 不 会 存放 所 有 的 键 。 
io.map.index.interval 属 性 的 值 可 以 指定 采样 间隔 。 以 下 例子 展示 了 countrycodes .map 
文件 中 的 数据 和 索引 文件 : 


hadoop fs -ls countrycodes.map/ 
Found 2 items 
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-rw-r--r-- 3 sandeepkaranth supergroup 10033 2014-06-08 14:20 
countrycodes.map/data 
-rw-r--r-- 3 sandeepkaranth supergroup 166 2014-06-08 14:35 


countrycodes.map/index 


hadoop fs -text countrycodes.map/index 


127 


5088 


hadoop fs -text countrycodes.map/data 


241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
251 
252 


vi,Virgin Islands (USA) 
vn,Vietnam 

vu,Vanuatu 

wf,Wallis and Futuna Islands 
ws,Samoa 

ye,Yemen 

yt,Mayotte 

yu, Yugoslavia 

za,South Africa 
zm,Zambia 

zr,Zaire 

zw,Zimbabwe 


MapFile 格 式 有 助 于 进行 Map 侧 连接 。 在 连接 时 ， 可 以 根据 数据 和 索引 文件 的 有 序 性 来 切 分 


的 API。 


再 将 其 传输 给 单个 Map 任 务 。 创 建 MapFile 格 式 文件 的 API 类 似 于 创建 sequenceFile 


以 下 代码 演示 了 如 何 使 用 MapFile .fix() 静 态 方 法 把 SequenceFile 转 换 成 MapFile: 


public static void writeMapFile(String seqFile) throws IOException { 


Path readPath = new Path(segFile); 
Path mapPath - new Path(readPath, MapFile.DATA FILE NAME); 


Configuration conf - new Configuration(false); 
FileSystem fs = FileSystem.get(URI.create(seqgFile), conf); 


SequenceFile.Reader reader - null; 


try{ 
reader = new SequenceFile.Reader(conf, 
SequenceFile.Reader.file(mapPath)); 
Class keyClass - reader.getKeyClass(); 
Class valueClass - reader.getValueClass(); 


MapFile.fix(fs, readPath, keyClass, valueClass, false, conf); 


j 

catch(IOException ioEx)( 
ioEx.printStackTrace(); 

} 

catch (Exception ex)( 
ex.printStackTrace(); 
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finally( 
if(reader !- null)( 
reader.close(); 


) 


} 


5.8.3 ”其 他 数据 结构 


Hadoop 也 支持 其 他 可 持久 化 的 数据 结构 ， 它 们 都 是 MapFile 的 变 体 。 以 下 列举 了 其 中 一 些 
结构 。 


O setrile: 这 种 文件 格式 保存 键 集合 , 并 可 对 键 进行 集合 操作 。sSetFile API5MapFile 
API 之 间 的 主要 区 别 是 ，SetFilewriter 的 append 方 法 只 需 传 人 一 个 键 , 不 需要 其 对 应 
的 值 。 从 底层 来 看 , 值 是 Nul11Writable。 其 文件 结构 保持 不 变 , 例如 ， 它 有 索引 文件 和 
数据 文件 ， 同 时 也 有 sequenceFile 的 方法 。 

口 ArrayFile: 这 个 特别 的 文件 格式 可 视 为 setFile 的 补充 。 它 只 存 有 值 ， 不 存 键 。 类 似 
数组 ， 键 对 应 于 一 个 特定 的 值 ， 其 类 型 是 Longwritable， 包含 了 一 条 记录 的 序号 。API 
方法 append 只 接受 值 。 

O BloomMapFile: 这 种 文件 格式 是 MapFile 的 变 体 。 除 了 索引 和 数据 文件 之 外 , 它 还 包含 
一 个 布 隆 文件 (Bloom file )。 此 布 隆 文 件 编 人 了 动态 布 隆 过 滤器 。 对 于 基于 键 - 值 格式 的 
大 文件 ， 如 果 键 很 稀疏 ,那么 依照 索引 来 查询 键 可 能 不 够 快速 。 布 隆 过 滤器 是 一 种 概率 
型 数据 结构 , 它 把 存在 的 键 编码 为 一 些 比特 , 然后 通过 MapFileget () 方 法 就 能 快速 获取 

查询 结 


5.4 压缩 


为 了 节省 存储 空间 和 网 络 数 据 传 输 量 , 我 们 在 本 书 中 反复 提 到 “压缩 ”这 个 问题 。 当 处 理 大 
量 数据 时 , 只 要 有 办 法 减少 存储 空间 和 网 络 数据 传输 量 , 就 能 在 速度 和 成 本 两 方面 给 予 效率 提升 。 
压缩 就 是 这 样 一 种 策略 ， 能 帮助 基于 Hadoop 的 系统 更 高 效 。 


所 有 的 压缩 技术 都 在 压缩 速度 和 压缩 率 之 间 进 行 了 折 囊 。 压 缩 率 越 高 , 压缩 速度 越 慢 ， 反 之 
亦 然 。 每 种 压缩 技术 都 可 通过 调整 来 权衡 以 上 两 个 方面 。 例 如 ，gzip 压 缩 工具 提供 选项 -1 到 -9， 
-1 优化 压缩 速度 ， 而 -9 优化 压缩 率 。 

下 图 显示 了 不 同 压缩 算法 在 速度 -空间 这 两 项 上 的 不 同 表 现 。gzip 算 法 较 好 地 平衡 了 存储 和 
速度 。 其 他 算法 ,如 LZO、LZ4、Snappy， 虽然 压缩 速度 很 快 ,但 它们 的 压缩 率 不 高 。Bzip2 算 法 
压缩 速度 较 慢 ,但 压缩 率 最 高 。 
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Snappy Gzip Bzip2 
更 快 的 压缩 速度 更 高 的 压缩 率 
LZ4  LZ0 


编 解 码 器 是 压缩 技术 的 具体 实现 .Hadoop 中 所 有 的 压缩 编 解 码 器 都 需 在 它们 的 实现 类 中 实现 
Compressioncodec 接 口 。 编 解码 器 位 于 org.apache.hadqoop.io.compress 包 中 。 那 里 有 个 
Hadoop 自 带 的 默认 编 解码 锅 ， 其 压缩 算法 基于 DEFLATE 算 法 。 


[ DEFLATE 压 缩 类 似 于 gzip， 但 不 包含 额外 的 头 部 和 尾部 信息 。 | 


5.4.1 分 片 与 压缩 


Map 任 务 处 理 数据 的 单个 分 片 ， 分 片 通常 是 保存 在 HDFS 中 的 一 个 文件 块 。 但 是 ， 大 多 数 压 
缩 算法 并 不 允许 在 任意 位 置 读 取 文 件 。 尽 管 有 些 压 缩 算法 ( 如 gzip ) 是 基于 块 的 压缩 技术 ,但 这 
里 所 说 的 块 与 HDFS 中 的 块 没 有 关系 ， 或 者 说 HDFS 的 块 对 算法 透明 。 在 这 种 情况 下 ，Hadoop 不 
会 切 分 文件 , 而 是 把 整个 文件 交 给 单个 Map 任 务 处 理 。 在 多 数 情 况 下 , 这 种 处 理 方式 是 不 恰当 的 。 


某 些 压缩 格式 , 如 LZO , 提供 了 索引 工具 , 这 个 工具 可 以 处 理 LZO 文 件 并 构建 压缩 块 的 索引 。 
那么 ， 对 应 的 InputFormat 方 法 就 可 以 使 用 这 些 索引 ， 来 确定 分 片 数 量 和 分 片 的 偏 移 量 。 例 如 ， 
LzoText InputFormat 可 以 读 取 基于 LZO 文 件 的 索引 , 从 而 确定 Map 任 务 的 输入 分 片 。 


然而 ,， 有 些 压缩 技术 ( 如 bzip2 ) 天 生 就 可 切 分 , 它们 利用 同步 标记 (synchronization marker ) 
来 标识 切 分 点 。Hadoop 通 过 文件 的 扩展 名 来 识别 不 同 的 压缩 格式 。 


启用 压缩 后 ， 有 以 下 一 些 策略 可 供 选 择 。 


口 应 用 程序 可 以 在 预 处 理 阶段 切 分 文件 ,然后 使 用 流行 的 压缩 技术 ( 如 gzip ) 对 文件 分 片 进 
行 压缩 。 这 些 压缩 文件 块 保存 在 HDFS 中 。 压 缩 后 的 文件 块 大 小 要 几乎 等 于 HDFS 块 大 小 ， 
这 样 才 算 最 优 。 这 种 情况 下 ， 不 用 担心 压缩 算法 是 否 可 切 分 。 

O 对 文件 可 直接 应 用 可 切 分 的 压缩 算法 ， 如 bzip2。 但 是 ， 在 支持 的 压缩 编 解码 器 中 ，bzip2 

压缩 速度 最 慢 。 可 以 用 LZO 来 代替 ， 然 后 在 LZO 文 件 上 构建 索引 。 

口 有 些 文件 格式 ， 如 sequenceFile、MapFile、RCFile， 天 生 就 支持 切 分 。 它 们 也 可 被 
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压缩 ， 这 一 点 在 5.3 节 已 讨论 过 。 
a 把 数据 保存 在 专门 的 文件 格式 中 ， 这 是 行业 首选 的 实践 方法 。 这 样 可 以 获得 速度 与 压缩 
之 间 的 平衡 。 


5.4.2 ”压缩 范围 


在 第 2 章 中 ,我们 了 解 到 ， 通 过 对 MapReduce 数 据 流 中 的 很 多 地 方 采用 压缩 技术 ， 可 以 提高 
作业 处 理 速度 并 降低 存储 消耗 。 我 们 可 以 在 本 小 节 对 此 进行 如 下 总 结 。 


口 Map 任 务 中 会 处 理 和 解压 缩 所 有 压缩 后 的 输入 数据 , 根据 文件 的 扩展 名 来 确定 压缩 编 解码 
器 。 某 些 情 况 下 ， 比 如 使 用 带 有 索引 的 LZO 压 缩 ， 需 要 使 用 特定 的 InputFormat 类 来 处 
理 特定 的 分 片 。 

O 配置 mapreduce.map.output.compress 属 性 为 true 可 启用 对 中 间 输 出 结果 的 压缩 功 
能 。 配置 mapreduce.map.output.compress.codec 属 性 可 设置 所 用 的 压缩 编 解 公 器 ， 
其 默认 值 是 org .apache.hadoop.compress.DefaultCodec。 

口 配置 maprequce.output .fileoutputformat .compress 属 性 为 true 可 局 用 对 作业 输 

出 结果 的 压缩 功能 。 配置 mnapreduce.output.fileoutputformat.compress.codec 

属性 可 设置 所 用 的 编 解 码 器 。 如 果 输 出 结果 是 SequenceFile， 有 个 特别 的 mapreduce. 

output .fileoutputformat .compress.type 属 性 ， 用 于 确定 压缩 粒度 。 默认 值 是 

RECORD， 代 表 每 条 记录 被 单独 压缩 。 设 置 为 BLOCK 可 压缩 成 组 记录 。 


5.5 小结 


大 数据 处 理 涉 及 存储 或 网 络 中 传输 的 数据 表示 法 。 紧 凑 、 可 快速 转换 、 可 扩展 和 向 后 兼容 是 
数据 表示 法 的 必 备 属性 。 以 下 是 本 章 中 学 到 的 关于 数据 表示 法 的 主要 内 容 。 

口 Hadoop 通 过 writable 接 口 提供 内 置 的 序列 化 / 反 序 列 化 机 制 。 通 过 writable 类 序列 化 后 

的 结果 比 Java 序 列 化 更 紧凑 。 

口 Avro 是 灵活 并 可 扩展 的 数据 序列 化 框架 。 它 把 数据 序列 化 为 字 节 。Hadoop 、MapReduce、 

Pig 和 Hive 都 支持 这 个 框架 。 

OQ Avro 支持 动态 类 型 ， 无 需 生 成 代码 。schema 可 与 数据 共存 ， 并 可 被 任何 子 系统 读 取 。 

O 压缩 技术 在 压缩 速度 和 压缩 率 之 间 进 行 权衡 。Hadoop 在 这 两 者 的 权衡 范围 内 支持 很 多 压 

缩编 解码 器 。 对 于 大 数据 处 理 ， 压 缩 是 一 种 很 重要 的 优化 手段 。 

口 Hadoop 支 持 很 多 特有 的 容器 文件 格式 ， 如 sequenceFile 和 MapFile。 这 些 格式 支持 切 
分 和 压缩 。Hadoop 也 支持 持久 化 特殊 的 数据 结构 ， 如 ArrayFile、SetFile 和 Bloom- 
MapFiles 

下 一 章 ， 我 们 会 学 习 YARN， 它 是 Hadoop 2.X 中 资源 管理 的 核心 。 同 时 会 了 解 它 是 如 何 泛 化 

Hadoop 平 台 的 。 


YARN 一 一 其 他 应 用 模式 
进入 Hadoop 的 引路 人 


YARN (Yet Another Resource Negotiator ) 是 Hadoop 2.0 为 集群 引入 的 一 个 资源 管理 层 。 正 
如 我 们 在 第 1 章 中 所 看 到 的 ，YARN 将 JobTracker 守 护 进程 的 职责 分 离 了 出 来 。JobTracker 的 职 


责 有 : 


口 Hadoop 集 群 的 资源 仲裁 
口 MapReduce 作 业 管 理 


JobTracker 的 模式 问题 在 于 , 它 是 Hadoop 集 群 计算 层 的 单一 故障 点 , JobTracker 的 任何 失效 都 
意味 着 正在 执行 的 作业 将 功 亏 一 筑 , 需要 重新 再 跑 一 次 。 所 有 作业 的 通信 、 调 度 和 资源 管理 都 是 
JobTracker 的 主 守护 进程 控制 ， 所 以 JobTracker 的 单 点 很 容易 造成 扩展 的 瓶颈 。 


JobTracker 的 功能 紧密 地 耦合 在 一 起 ， 使 它 变 得 很 刻板 ， 并 且 只 能 支持 MapReduce 一 种 计算 
模式 应 用 到 集群 上 。MapReduce 不 适合 多 种 应 用 混合 在 一 起 ,而 且 用 这 种 模式 强制 解决 所 有 过 到 
的 问题 也 是 不 明智 的 。 


YARN 人 负责 集群 的 资源 管理 和 应 用 调度 ， 它 不 知道 正在 运行 的 应 用 的 类 型 ， 也 不 知道 应 用 的 
任何 内 部 信息 。 资 源 协商 严格 按照 协议 进行 。MapReduce 仅 是 YARN 中 的 一 种 应 用 模式 ， 其 他 应 
用 模式 也 像 MapReduce 一 样 可 以 使 用 既定 的 协议 从 YARN 中 申请 CPU、 内 存 或 其 他 资源 ， 并 在 集 
群 中 运行 。 

本 章 ， 我 们 将 : 


O 深入 YARN 的 架构 
a 构建 一 个 简单 的 非 MapReduce 应 用 ， 并 关注 
a 构成 YARN 应 用 的 模块 


u 构建 这 些 模 块 的 关键 步 又 
m 与 YARN 各 个 组 件 通信 所 使 用 的 协议 


6.1 YARN 的 架构 117 


a ity Cia 
口 了 解 YARN 的 命令 和 


6.1 YARN 的 架构 
下 页 图 展示 了 基于 YARN 的 集群 的 架构 ， 这 个 集群 中 的 模块 主要 有 以 下 5 种 类 型 。 


OQ 资源 管理 器 (Resource Manager, RM): 每 个 集群 里 面 都 有 一 个 RM 守护 进程 ， 专 门 负责 
集群 中 可 用 资源 的 分 配 和 管理 。 

口 节点 管理 器 (Node Manager, NM): 每 个 节点 都 有 一 个 NM 守护 进程 ， 负 责 节 点 的 本 地 资 
源 管 理 。 在 RM 中 ，NM 代 表 本 地 节点 。 

口 Application Master (AM ): 每 个 应 用 都 有 一 个 AM 的 守护 进程 ， 它 封装 了 应 用 的 所 有 逮 
辑 结构 和 依赖 的 库 信 息 。AM 负 责 与 RM 进行 资源 协商 , 并 协同 NM 工作 以 完成 应 用 的 功能 。 
口 (container ): 这 是 分 配给 具体 应 用 的 资源 的 抽象 表现 形式 。AM 是 一 个 用 来 启动 和 管 
整个 应 用 生命 周期 的 特殊 容器 。 
Q 客户 端 ( client ): 这 是 集群 中 的 一 个 能 向 RM 提交 应 用 的 实例 ， 并 且 指 定 了 执行 应 用 所 需 
要 的 AM 类 型 。 


6. 


— 


.1 资源 管理 器 
资源 管理 器 有 以 下 两 个 主要 的 组 件 : 
a ig 


H 
度 器 (scheduler ) 
口 应 用 管理 器 ( ApplicationsManager ) 


调度 器 负责 为 集群 中 执行 的 各 种 应 用 分 配 资源 , 而 且 它 执行 纯粹 的 分 配 资源 功能 , 不 会 关注 
应 用 内 部 状态 相关 的 任何 信息 。 在 应 用 失败 或 者 硬件 故障 的 时 候 ， 调 度 器 不 保证 能 够 重启 应 用 。 
调度 是 基于 RM 所 了 解 的 集群 的 全 局 状态 进行 的 ， 分 配 资源 的 过 程 中 使 用 了 配置 的 队列 和 容量 参 
数 信 息 。 

调度 的 策略 可 以 作为 插件 参与 到 调度 器 中 。Hadoop 1.X 中 ， 容量 调 度 器 ( CapacityScheduler ) 
和 公平 调度 器 ( FairScheduler ) 是 两 种 很 受 欢迎 的 调度 策略 ， 它 们 同样 存在 于 Hadoop 2.X 中 。 


应 用 管理 器 这 种 组 件 负 责 处 理 客户 端 提 交 的 应 用 。 另 外 ， 它 还 根据 应 用 的 要 求 和 AM 协商 所 
需要 的 容器 ， 并 启动 应 用 程序 。 在 应 用 失败 的 情况 ， 应 用 管理 器 还 提供 重启 AM 的 服务 。 下 图 展 
示 了 基于 YARN 的 集群 架构 : 
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RM 的 耦合 度 是 很 低 的 ， 它 使 用 两 个 公共 接口 和 一 个 私有 接口 与 其 他 组 件 通信 ， 接 口 包括 ; 


口 为 客户 端 提交 作业 的 公共 接口 (Application-Client Protocol ) 
OQ 为 AM 请 求 资源 的 公共 接口 ( Application-Master Protocol ) 
口 与 NM 交互 使 用 的 内 部 接口 


资源 是 动态 分 配 的 , 并 且 不 感知 应 用 的 内 部 状态 或 者 优化 措施 , 这 样 便 可 以 实现 对 集群 资源 
的 有 效 利用 。AM 使 用 如 下 参数 发 送 资源 申请 的 请 求 : 


口 请 求 的 容器 的 数量 ， 例 如 ，100 个 容器 

口 每 个 容器 的 详细 资源 规格 信息 ， 例 如 ，2 个 CPU 和 4 GB 内 存 
O 容器 在 主机 或 机 架 上 位 置 分 布 的 偏好 

a 提出 的 请 求 在 当前 应 用 中 的 优先 级 


RM 的 调度 咒 获 得 请 求 后 , 基于 心跳 信息 获得 的 集群 状态 为 AM 分 配 容 右 , 然后 将 容器 转交 给 
AM。 在 集群 资源 不 足 的 情况 下 ，RM 可 能 要 求 AM 归 还 一 些 容器 。 如 果 等 待 超 过 一 定时 间 后 依然 
没有 容器 被 释放 , RM 可 以 终止 容器 的 运行 .RM 请 求 AM 释 放 资源 可 以 看 成 是 警告 正在 执行 的 AM 
保存 关键 数据 和 工作 状态 。 


6.1.2 Application Master 


当 一 个 应 用 被 提交 时 , 应 用 管理 需 与 调度 器 协商 得 到 一 个 容器 , 这 个 容 顺 为 这 个 特定 的 应 用 
启动 一 个 AM。AM 生 成 后 ， 会 定期 向 RM 发 送 心 跳 信 息 ， 以 实现 下 面 的 两 个 操作 : 
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口 通知 RM 这 个 AM 是 否 处 于 活动 状态 
a 为 这 个 应 用 申请 资源 


在 回应 心跳 信息 时 ，RM 分 配 容器 给 AM， 并 且 AM 可 以 自由 使 用 这 些 容 器 。AM 完 全 负责 对 
容器 终止 的 解释 和 处 理 ， 以 及 其 他 应 用 相关 的 故障 。 


AM 使 用 Application-Master 协 议 与 RM 进行 交互 ， 并 且 AM 直 接 从 NM 处 获取 容器 的 状态 。AM 
也 能 通过 与 NM 的 交互 来 启动 和 停止 分 配给 它 的 容器 。AM 与 NM 之 间 的 交互 是 通过 
ContainerManager 协 议 完成 的 。 


在 YARN 中 ， 资 源 管理 使 用 了 延 时 绑 定 的 模式 。 容 器 的 产生 可 能 和 AM 的 请 求 没 有 关系 ， 而 
仅仅 是 与 AM 给 出 的 一 个 租约 〈lease ) 绑 定 。AM 请 求 所 获得 的 资源 状态 可 能 会 随 着 时 间 而 变化 ， 
且 申 请 的 资源 可 用 于 各 种 目的 而 不 仅仅 是 原来 计划 的 用 途 。 

让 我 们 通过 一 个 虚构 的 例子 ， 使 用 MapReduce 的 AM 来 展示 资源 的 延 时 绑 定 。 我 们 都 知道 
HDFS 是 在 集群 的 节点 之 间 复 制 文件 的 每 个 块 。 一 个 Map 任 务 优先 选择 在 输入 数据 所 在 的 节点 执 
行 。 当 MapReduce 的 AM 请 求 容 器 后 ， 它 分 配 一 个 Map 任 务 到 该 容器 ， 并 且 该 容器 的 主机 和 数据 


所 在 的 主机 是 同一 台 ， 或 离 得 很 近 。 这 个 决定 仅 在 AM 获得 容器 后 才 发 生 ， 并 且 是 以 一 种 动态 的 
方式 进行 的 。 


Hadoop 1.X 的 JobTracker 有 一 个 Web 接 口 (通常 是 50030 端 口 ), 由 于 在 Hadoop 
— 2.X 中 JobTracker 已 经 不 存在 了 ， 所 以 这 个 Web 接 口 也 就 不 可 用 了 。 


6.1.3 ”节点 管理 器 


NM 是 每 个 节点 的 守护 进程 ， 负 责 本 地 容器 的 管理 ， 管 理 范围 从 认证 到 资源 监控 。 它 们 使 用 心 
跳 信 息 向 RM 汇报 状态 。 容 器 启动 上 下 文 (ContainerLaunch Context, CLC ) 记录 被 用 于 指定 容器 的 
配置 信息 ,例如 依赖 、 数 据 文件 路 径 、 环 境 变 量 等 。NM 可 以 根据 CLC 中 的 配置 信息 启动 容器 。 


同一 个 AM (AM 作为 资源 的 承租 人 ， 或 者 说 使 用 者 ) 的 容器 间 的 资源 可 以 共享 ， 另外， 只 
要 提供 外 部 资源 的 URL， 也 可 以 下 载 这 些 资 源 及 其 依赖 。NM 负 责 容器 的 终止 操作 ， 依 据 的 是 来 
自 AM 或 RM 的 请 求 。 如 果 一 个 容器 超出 了 它 的 租约 ， NM 还 有 权 终 止 这 个 容器 。 终 止 容 絮 的 操作 
包括 清理 操作 ， 例 如 删除 容器 生成 的 本 地 数据 。 

NM 的 职责 还 包括 监控 本 地 的 物理 资源 ， 例 如 CPU、 内 存 和 磁盘 的 健康 状态 ， 并 且 还 将 这 些 
状态 汇报 给 RM。RM 的 调度 器 会 根据 NM 的 负载 情况 和 健康 状态 做 出 如 何 分 配 容器 的 决定 。 

NM 向 应 用 提供 日 志 聚 合 的 服务 。 标 准 输出 和 错误 日 志 会 在 应 用 完成 的 时 候 输出 到 HDFS 上 。 
NM 也 能 通过 配置 添加 插件 式 辅 助 服务 ( auxiliary service )。 例 如 ， 一 项 辅助 服务 可 以 让 应 用 的 本 
地 数据 直到 应 用 结束 后 才 被 删除 ,而 不 是 在 容 需 终止 的 时 候 就 删除 , 这 对 于 某 些 应 用 场景 是 很 有 
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用 的 。 例 如 ， 在 MapReduce 使 用 场景 下 ，map 任 务 的 输出 需要 被 传输 到 reducer， 这 时 就 可 以 使 用 
辅助 服务 来 完成 。 这 类 服务 需要 的 任何 额外 配置 都 可 以 通过 CLC 来 指定 。 


6.1.4 YARN 客户 端 

YARN 客 户 端 负责 为 AM 提交 合适 的 CLC。 正 如 之 前 所 说 ，AM 本 身 也 是 运行 在 容器 中 的 ， 这 
个 容器 资源 也 需要 由 客户 端 与 RM 协商 而 得 到 。YARN 客 户 端 同时 还 负责 AM 的 注册 ,并且 可 以 自 
由 提供 其 他 服务 给 它 的 消费 者 。 


6.2 FÈ YARN 的 应 用 程序 


YARN 能 引入 其 他 的 计算 模式 到 Hadoop 中 。Hadoop 2.X、MapReduce、Pig 和 Hive 都 有 AM 的 
库 和 对 应 的 客户 端 。 开 发 人 员 可 以 使 用 YARN API 编 写 自己 的 应 用 并 运行 在 现 有 的 Hadoop 框 架 
内 。 同 样 ， 企 业 如 果 已 经 有 大 量 的 数据 集 在 HDFS 中 ， 也 可 以 编写 自 定义 的 应 用 来 使 用 它们 ， 而 
不 需要 提供 新 的 集群 或 者 迁移 已 有 的 数据 。 


Storm 是 一 个 已 经 移植 到 YARN 上 的 实时 流 处 理 引 警 , 带 来 了 将 数据 向 计算 机 节点 移动 的 应 用 
模式 。Spark 是 另 一 个 可 以 运行 在 YARN 上 的 项 目 ， 并 能 利用 已 有 的 Hadoop 框 架 来 提供 基于 内 存 
的 数据 转换 (包括 MapReduce )。 还 有 很 多 正在 开发 的 项 目 都 展示 了 Hadoop 有 能 力 成 为 一 个 通用 
集群 计算 平台 。 

在 本 节 ， 我 们 将 聚焦 于 如 何 编写 一 个 简单 的 YARN 应 用 。 这 个 应 用 从 shell 获 取 一 个 命令 ， 然 
后 在 Hadoop 集 群 指定 数量 的 节点 上 执行 。 我 们 需要 编写 AM 和 客户 端 两 个 程序 。 


6.2.1 实现 YARN 客 户 端 


YARN 客 户 端 通过 ApplicationClientProtocol 提 交 应 用 到 RM， 返 回 的 结果 是 一 个 分 配 
好 的 ApplicationId。 客 户 端 然 后 与 AM 通信 ， 指 定 部 署 AM 的 容器 的 具体 参数 。AM 是 一 个 需 
要 被 独立 启动 和 运行 的 程序 。 指 定 的 参数 包括 AM 的 库 的 位 置 、 任 何 AM 运行 时 需要 的 环境 变量 
和 实际 运行 时 需要 的 参数 。 


下 面 的 代码 段 摘自 shell command 应 用 ,我 们 写 了 一 个 run 方 法 , 它 会 被 DistributedShell- 
Client main 方 法 调用 。 参 数 将 会 通过 命令 行 传递 到 main 方 法 。 这 些 参数 包括 AM 的 JAR 文 件 路 
径 、shell 命 令 行 、 执 行 命令 需要 的 容 需 的 数量 。 让 我 们 看 看 如 何 通过 如 下 的 步 又 编写 一 个 YARN 
客户 端 。 


(]) 第 一 步 是 创建 一 个 Yarnconfiguration 对 象 。Yarnconfiguration 类 是 Hadoop 
MapReduce 使 用 的 configuration 类 的 子 类 。Yarnconfiguration 对 象 创建 成 功 后 , 该 应 用 就 
可 以 读 取 一 些 必要 的 配置 文件 , 例如 yarn-site.xml 文 件 。 默认 的 属性 被 放置 在 yarn-default.xml 文 件 
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中 。yarn-site.xml 文 件 一 般 可 以 在 相对 于 Hadoop 安 装 目 录 的 etc/hadoop 目 录 中 找到 。 

D 应 用 客户 端 现在 需要 初始 化 一 个 Yarnclient 对 象 ， 它 是 通过 调用 一 个 名 为 
createYarnClient 的 工厂 (factory ) 方法 生成 的 。Yarnclient 对 象 使 用 之 前 创建 的 配置 进行 
初始 化 。 基 于 传 入 的 配置 信息 ，Yarnclient 对 象 获得 了 RM 的 信息 ， 并 在 初始 化 中 创建 了 一 个 
RM 的 代理 对 象 。 所 有 与 RM 的 通信 和 是 通过 这 个 RM 代理 进行 的 ,代理 封装 了 ApplicationClient- 
Protocol 对 象 ， 然 后 调用 Yarnclient 对 象 的 start 方 法 使 得 客户 端 开 始 执 行 。 

(3) 男 一 个 可 选 的 方法 是 开发 者 自己 创建 一 个 代理 并 自己 管理 它 ,比如 ApplicationClient- 
Protocol 对 象 就 是 这 样 一 种 代理 类 型 。 不 过 我 们 还 是 推荐 使 用 上 一 种 方法 。 

(4) Yarnclient 有 一 个 用 于 获取 YarnclientApplication 对 象 的 createApplication 方 
法 。 一旦 Yarnclient 封 装 了 RM 的 代理 , 它 就 包含 了 检索 RM 属性 、 管理 提交 到 RM 的 应 用 的 方法 。 

相应 的 代码 如 下 : 


package MasteringYarn; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileStatus; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.yarn.api.ApplicationConstants; 
import org.apache.hadoop.yarn.api.records.*; 

import org.apache.hadoop.yarn.client.api.YarnClient; 
import 
org.apache.hadoop.yarn.client.api.YarnClientApplication; 
import org.apache.hadoop.yarn.conf.YarnConfiguration; 
import org.apache.hadoop.yarn.exceptions.YarnException; 
import org.apache.hadoop.yarn.util.Apps; 

import org.apache.hadoop.yarn.util.ConverterUtils; 
import org.apache.hadoop.yarn.util.Records; 

import java.io.File; 

import java.io.IOException; 

import java.util.Collections; 

import java.util.HashMap; 

import java.util.Map; 


public class DistributedShellClient { 
private Configuration conf - new YarnConfiguration(); 


public void run(String[] args) throws YarnException, 
IOException, InterruptedException { 


YarnConfiguration yarnConfiguration = new 
YarnConfiguration(); 
YarnClient yarnClient = YarnClient.createYarnClient(); 
yarnClient.init(yarnConfiguration); 
yarnClient.start(); 


YarnClientApplication yarnClientApplication - 
yarnClient.createApplication(); 
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(5) 一 旦 YarnclientApplication 被 创建 ， 下 一 步 就 是 申请 一 个 容器 来 启动 AM。YARN 中 
的 容器 规格 是 通过 containerLaunchcontext 类 来 描述 的 。 在 org .apache.hadoop.yarn. 


util 包 中 ， 有 一 个 特殊 的 Records .newRecord 吏 态 工 厂 方法 用 来 初始 化 不 同 的 类 。 


(6) 通过 浏览 containerLaunchCcontext 的 文档 , 你 可 以 了 解 到 启动 一 个 容器 能 够 指定 的 属 
性 。 所 有 的 containerLaunchContext 对 象 中 都 可 以 使 用 ACL、 命令 行 、 环 境 变 量 、 本 地 资源 、 
服务 的 可 执行 数据 和 安全 令 脾 (security token )。 在 下 面 的 代码 中 ,containerLaunchContext 
对 象 被 初始 化 ， 并 调用 setcommangds 来 设 定 启动 容器 时 需要 的 命令 行 。 在 我 们 的 例子 中 ， 用 于 
启动 AM 的 命令 行 在 DistributedshellApplicationMaster 类 中 ， 稍 后 将 定义 它 。 


(07) 启动 AM 要 求 必需 的 类 或 JAR 文 件 在 本 地 存在 。 下 一 步 是 使 用 containerLaunch-Context 
对 象 的 setLocalResources 方 法 指定 一 个 包含 AM 运 行 逻 辑 的 JAR 文 件 。 在 这 个 例子 中 ,获取 JAR 
文件 的 HDFS 路 径 将 设置 为 本 地 资源 。 这 些 文件 的 路 径 将 以 命令 行 参数 的 形式 指定 。 另 外 ， 其 他 旁 
路 通道 也 可 以 用 来 分 派 资 源 到 容器 的 本 地 环境 中 。 


(8) 类 似 地 ， 如 果 有 任何 容器 运行 需要 的 环境 变量 ,可 以 通过 使 用 containerLaunchcontext 
对 象 的 setEnvironment 方 法 指定 。 


(9) 不 论 启动 哪 种 容器 ，RM 所 需要 的 最 重要 规格 参数 是 容器 对 CPU 和 内 存 的 要 求 。 在 这 个 例 
子 中 , 执行 AM 的 容器 需要 100 MB 的 内 存 和 1 个 CPU , 这 是 通过 Resource 对 象 指定 的 。Resource 
对 象 是 容器 计算 资源 请 求 的 抽象 表现 形式 ， 当 前 有 CPU 和 内 存 两 种 模型 。CPU 模 型 是 以 虚拟 核 
( virtual core ) 为 基本 单位 的 , 它 是 一 个 整数 值 , 并 且 配 置 中 必须 将 一 个 虚拟 核 映射 到 一 个 物理 核 。 
通常 都 是 按 1:1 映 射 。 内 存 模型 是 以 MB 为 单位 。 指 定 这 两 种 模型 分 别 使 用 Resource 对 象 的 


setVirtualCores 和 setMemo ry 方法 : 


// AM 容器 的 启动 上 下 文 设置 
ContainerLaunchContext applicationMasterContainer = 
Records.newRecord(ContainerLaunchContext.class); 
applicationMasterContainer.setCommands( 
Collections.singletonList("S$JAVA HOME/bin/java 
"MasteringYarn.DistributedShellApplicationMaster " + 
args[2] - 


年 
args[3] + 
"ono. 


"l»"ox 
ApplicationConstants. 
LOG DIR EXPANSION VAR -«"/stdout " + 
"2»" ox 
ApplicationConstants.LOG DIR EXPANSION VAR -«"/stderr") 
3 


LocalResource applicationMasterJar = 
Records.newRecord(LocalResource.class); 
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setupJarFileForApplicationMaster(new Path(args[1]), 
applicationMasterJar); 
applicationMasterContainer.setLocalResources( 
Collections.singletonMap("MasteringYarn.jar", 
applicationMasterJar) 
) ; 


Map«String, String» appMasterEnv = new HashMap<>(); 
setupEnvironmentForApplicationMaster (appMasterEnv); 
applicationMasterContainer.setEnvironment (appMasterEnv); 


Resource resources - Records.newRecord(Resource.class); 
resources.setVirtualCores(1); 
resources.setMemory (100); 


(10) 最 后 一 步 是 提交 应 用 到 RM 的 应 用 管理 器 ， 提 交 的 参数 绑 定 在 Applicationsubmiss- 
ionsContext 对 象 中 。YarnclientApplication 类 有 这 个 对 象 的 引用 ( reference )。 
Application SubmissionsContext 对 象 中 有 容器 的 规格 参数 、 提 交 的 队列 、 一 个 合适 应 用 的 
名 字 和 一 个 局 动容 器 所 需要 的 Resource 对 象 .ApplicationSsubmissionsCcontext 对 象 也 给 出 
了 ApplicationId， 在 管理 应 用 的 API 中 ApplicationIg 能 用 来 代表 这 个 应 用 。 在 下 面 的 例子 
中 ,我 们 将 为 应 用 使 用 默认 队列 并 设置 一 个 合适 的 名 字 一 MasteringYarn。 最 后 ,YarnClient 
对 象 提交 应 用 。 在 实现 内 部 ,RM 的 代理 用 来 将 应 用 推送 到 RM。 调度 器 开始 介入 ,并 在 集群 中 调 
度 应 用 的 执行 。AM 是 第 一 个 产生 的 容器 : 

ApplicationSubmissionContext submissionContext = 

yarnClientApplication.getApplicationSubmissionContext(); 
submissionContext.setAMContainerSpec (applicationMaster 

Container); 
submissionContext.setQueue("default"); 


submissionContext.setApplicationName ("MasteringYarn"); 
t.setResource(resources); 


submissionContex 


ApplicationId applicationId = 
submissionContext.getApplicationId(); 
System.out.println("Submitting " + applicationId); 
yarnClient.submitApplication(submissionContext); 
System.out.println("Post submission " + 
applicationId); 


一 旦 提交 应 用 结束 ,可 以 在 Yarnclient 对 象 上 通过 getApplicationReport 方 法 监控 应 用 
的 进度 。ApplicationReport 对 象 包含 了 能 够 决定 应 用 成 败 的 有 用 信息 ， 还 包含 了 一 个 通用 的 
字段 来 帮助 开发 人 员 在 应 用 失败 的 情况 下 获取 内 部 状态 。 

ApplicationReport 对 象 通过 getYarnApplicationState 方 法 来 获取 应 用 的 当前 状态 ,在 
下 面 的 代码 中 ,我 们 每 隔 一 秒 钟 就 会 轮 询 一 次 应 用 状态 ,看 其 是 否 终止 。 如 果 是 KILLED FINISHED 
或 FAILED 状 态 ， 应 用 就 会 终止 。 启 用 getDiagnostics 可 以 打印 故障 发 生 时 的 诊断 信息 : 


ApplicationReport applicationReport; 
YarnApplicationState applicationState; 
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figuration 读 取 配 置 文件 yarn-site.xml。 
对 象 并 调用 它 的 run 方 法 : 


Thread.sleep(1000); 
applicationReport - 
yarnClient.getApplicationReport (applicationId); 
applicationState - 
applicationReport.getYarnApplicationState(); 


System.out.println("Diagnostics " + 
applicationReport.getDiagnostics()); 


)while(applicationState !- YarnApplicationState.FAILED && 
applicationState !- YarnApplicationState.FINISHED 
&& 
applicationState !- YarnApplicationState.KILLED ); 


System.out.println("Application finished with " + 
applicationState + " state and id " + applicationId); 


客户 端 还 包含 好 几 个 有 用 的 方法 。 第 一 个 方法 ,setJarFileForApplicationMaster, 通 


过 合适 的 属性 设置 AM 的 JAR 文 件 ， 其 中 大 部 分 是 自 解释 的 。 类 似 地 ， 所 有 需要 的 环境 变量 是 使 
用 setEnvironmentForApplicationMaster 方 法 KER XA 方法 也 证 明了 使 用 Yarncon 
最 后 ， 主 驱动 方法 实例 化 DistributedshellClien 


ny 


"Hm 


private void setupJarFileForApplicationMaster(Path jarPath, 

LocalResource localResource) throws IOException { 

FileStatus jarStat - FileSystem.get(conf).getFileStatus(jarPath); 
localResource.setResource(ConverterUtils 

.getYarnUrlFromPath(jarPath)); 

localResource.setSize(jarStat.getLen()); 
localResource.setTimestamp(jarStat.getModificationTime()); 
localResource.setType(LocalResourceType.FILE); 
localResource.setVisibility (LocalResourceVisibility.PUBLIC); 


private void setupEnvironmentForApplicationMaster (Map«String, 
String» environmentMap) ( 
for (String c : conf.getStrings( 
YarnConfiguration.YARN APPLICATION CLASSPATH, 
YarnConfiguration.DEFAULT YARN APPLICATION CLASSPATH)) 


Apps.addToEnvironment (environmentMap, 
ApplicationConstants.Environment.CLASSPATH.name(), 
cobrimirl; 

j 

Apps.addToEnvironment (environmentMap, 
ApplicationConstants.Environment.CLASSPATH.name(), 
ApplicationConstants.Environment.PWD.$() + 

File.separator + "*"); 
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public static void main(String[] args) throws Exception { 
DistributedShellClient shellClient - new DistributedShellClient(); 
shellClient.run(args); 


) 


6.2.2 ”实现 AM 实例 


AM 是 应 用 程序 的 指挥 者 (leader )。 它 封装 了 应 用 的 所 有 逻辑 ,并 在 合适 的 时 候 从 RM 请 求 资 
源 。 与 客户 端 不 同 的 是 ，AM 必 须 与 下 面 的 两 种 实例 保持 通信 。 


O RM: 通信 的 内 容 是 关于 应 用 的 全 局 状态 ， 使 用 的 协议 是 ApplicationMasterProtocol。 
ONM: 通信 的 内 容 是 关于 分 配给 应 用 的 容器 的 状态 ， 使 用 的 协议 是 ContainerManager。 


实现 一 个 AM 和 实现 一 个 客户 端 是 类 似 的 。 我 们 从 创建 一 个 Yarnconfiguration 对 象 开 始 。 
为 了 方便 与 RM 通信 ， 创 建 一 个 AMRMCclient ， 这 个 客户 端 封 装 了 与 RM 通信 所 需要 的 代理 对 象 。 
虽然 推荐 这 种 更 简单 的 方式 ， 但 是 再 次 说 明 一 下 ， 这 个 代理 是 可 以 独自 创建 的 。AMRMclient 有 
很 多 方法 ， 其 中 最 重要 的 方法 是 处 理 AM 的 注册 方法 (registerApplicationMaster ) 和 请 求 
分 配 容 器 方法 ( addContainerRequest )。 


为 了 与 NM 通信 ， 创 建 了 一 个 封装 了 通信 协议 代理 的 NMclient 对 象 ， 这 个 对 象 的 重要 方法 


包括 startCcontainer 和 stopcontainer， 它 们 被 用 于 启动 和 终止 节点 上 的 容器 。 如 下 的 代码 
段 演 示 了 这 个 功能 : 


package MasteringYarn; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.yarn.api.ApplicationConstants; 
import 
org.apache.hadoop.yarn.api.protocolrecords.AllocateResponse; 
import org.apache.hadoop.yarn.api.records.*; 

import org.apache.hadoop.yarn.client.api.AMRMClient; 

import org.apache.hadoop.yarn.client.api.NMClient; 

import org.apache.hadoop.yarn.conf.YarnConfiguration; 


import org.apache.hadoop.yarn.exceptions.YarnException; 
import org.apache.hadoop.yarn.util.Records; 

import java.io.IOException; 

import java.util.Collections; 


public class DistributedShellApplicationMaster { 


public static void main(String[] args) throws YarnException, 
IOException, InterruptedException { 


Configuration configuration = new YarnConfiguration(); 
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int numberOfContainers = Integer.parseInt(args[1]); 
String command - args[0]; 


System.out.println("Starting Application Master"); 


AMRMClient«AMRMClient.ContainerRequest» 
resourceManagerClient - AMRMClient.createAMRMClient(); 

resourceManagerClient.init(configuration); 

resourceManagerClient.start(); 


System.out.println("Started AMRMClient"); 


NMClient nodeManagerClient - NMClient.createNMClient(); 
nodeManagerClient.init(configuration); 
nodeManagerClient.start(); 


System.out.println("Started NMClient"); 


AMRMC1lient 和 NMC1lient 类 都 有 对 应 的 异步 版 本 .异步 API 对 资源 的 使 用 是 
高 效 的 ， 因 为 它们 等 待 回 应 时 不 会 阻塞 线程 。 当 方法 被 调用 后 ， 线 程 将 被 释放 
去 执行 其 他 的 任务 ; 而 当 API 的 结果 准备 好 后 ， 基 于 结果 的 真实 状态 ， 将 调用 注 
册 的 回调 函数 。 

如 下 代码 演示 了 AMRMC1ientAsync 类 与 RM 通信 的 使 用 方法 : 


class AMRMClientCallbackHandler implements 

AMRMClientAsync.CallbackHandler { 

public void onContainersAllocated(List<Container>containers) { 
// 分 配 容器 ， 执 行 相应 任务 。 

} 


public void onContainersCompleted(List<ContainerStatus>statuses)t 


: // 完成 容器 。 更 新 应 用 状态 。 


AN status needs to be updated. 
一 } 


public void onNodesUpdated(List«NodeReport» updated) {} 
public void onReboot() {} 


} 

AMRMClientAsync asyncClient = AMRMClientAsync. 

createAMRMClientAsync(appId, 1000, new 

AMRMClientCallbackHandler ()); 

// 使 用 配置 初始 化 客户 痛 ， 并 启动 代理 。 

asyncClient.addContainerRequest (container) 

AMRMC1ientcallbackHandler 对 象 将 在 异步 客户 端 创建 的 时 候 作为 参数 
传 入 。 无 论 何 时 ， 只 要 容器 中 有 事件 发 生 ， e a 
当 容 器 被 分 配 时 ，onContainersAllocated 回 调 方法 将 会 被 调用 。 类 似 的 API 


在 NMC1lient 对 象 中 也 可 以 看 到 。 


AMRMC1ient 类 用 于 将 AM 往 RM 注册 。 一 旦 注册 成 功 ，AM 将 启动 一 个 心跳 线程 ， 周 期 性 地 
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通知 RM 它 还 活着 。registerApplicationMaster 方 法 也 提供 了 一 个 AM 正在 监听 的 主机 地 址 
和 端口 号 。 客 户 端 可 以 通过 这 个 AM 的 主机 地 址 和 端口 号 获取 应 用 的 信息 。 


当 启 动 我 们 的 DistributedShell 应 用 时 ， 容 器 必须 按照 给 定 的 参数 分 配 好 。 其 中 两 个 必须 设置 
的 重要 属性 是 容器 的 优先 级 和 容器 需要 分 配 的 资源 的 总 量 。 


Priority 类 被 实例 化 以 设置 容器 的 优先 级 。 下 面 的 例子 中 ， 我 们 使 用 的 优先 级 为 0。 
Priority 对 象 只 能 用 于 特定 的 应 用 程序 。 


正如 我 们 对 AM 所 做 的 ,我们 通过 Resource 类 设置 每 个 容器 对 资源 的 要 求 。 回 顾 一 下 ， 
setMemory 方 法 设置 容器 对 内 存 的 需求 ， 单 位 是 MB ， 而 setvirtualCcores 设 置 对 CPU 核 数 的 
要 求 。 


Priority 和 Resource 对 象 是 为 AMRMClient 而 设计 的 ，containerRedquest 对 象 会 被 部 署 
到 RM， 从 而 进行 资源 分 配 工作 。 这 个 构建 函数 的 第 二 和 第 三 个 参数 是 nu11， 这 意味 着 任意 的 节 
点 和 机 架 都 可 以 分 配给 这 个 容器 。 这 种 情况 对 于 MapReduce 这 样 的 应 用 是 很 有 用 的 ， 因 为 它 需 要 
利用 数据 的 局 部 性 。 这 些 参 数 的 数据 类 型 是 string[] ， 且 第 二 个 参数 中 列 出 的 节点 所 对 应 的 机 
架 都 将 会 自动 地 加 入 到 机 架 列 表 中 。 


通过 客户 端的 aadqcontainerReauest 方 法 ，CcontainerRequest 对象 现在 被 添加 到 
AMRMC1ient 代 理 对 象 中 : 


resourceManagerClient.registerApplicationMaster("localhost", 
80010, "myappmaster"); 


System.out.println("Registration done"); 


// 容器 的 优先 级 优先 级 是 相对 于 应 用 内 部 而 言 的 
Priority priority = Records.newRecord(Priority.class); 
priority.setPriority(0); 


// 容器 的 资源 需求 

Resource capability = Records.newRecord(Resource.class); 
capability.setMemory (128); 
capability.setVirtualCores (1); 


for(int i20; i < numberOfContainers; i++){ 
AMRMClient.ContainerRequest containerRequest - new 
AMRMClient.ContainerRequest(capability, null, 
null, priority); 
resourceManagerClient. addContainerRequest (containerRequest); 


H 
AMRMC1ient 类 中 的 allocate 方 法 指示 RM 去 分 配 容器 ， 它 同时 也 是 发 给 RM 的 一 个 心跳 信 
Eo 这 个 方法 的 返回 结果 是 一 个 A1locateResponse 对 和 象 , 这 个 对 象 包含 新 分 配 的 容器 的 信息 、 
完整 的 容器 列表 以 及 集群 相关 的 信息 。 它 同时 也 表明 在 集群 中 这 个 应 用 剩余 的 可 以 使 用 的 资源 
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AllocateResponse 也 有 一 个 ResponseIgd,， 用 来 毫 无 歧义 地 识别 重复 的 请 求 。allocate 
方法 的 参数 是 一 个 浮 点 类 型 参数 ， 它 表明 了 这 个 操作 的 进度 。AM 可 以 通过 这 个 参数 展示 这 个 应 
用 的 进度 。 


4 


Q 应 该 加 免 并 行 的 资源 分 配 请 求 调用 ， 因 为 这 样 可 能 导致 请 求 丢失 。 


容器 的 启动 总 是 要 用 到 containerLaunchcontext 对 象 。 它 与 启动 AM 容 需 的 过 程 非 常 相 
似 ， 通 过 指定 命令 行 、 环 境 变 量 、 本 地 资源 和 其 他 程序 需要 的 参数 来 执行 容器 。 

然后 ， 容 器 通过 NMC1lient 对 象 启 动 ， 它 通知 NM 去 启动 容器 并 执行 相关 的 命令 行 。 
startContainet 方 法 接受 RM 返回 的 容 需 对 象 ， 这 个 对 象 中 包含 了 容器 的 标识 符 、 认 证 令 牌 以 
及 容 吉 所 在 的 节点 的 信息 : 


int completedContainers = 0; 
int containerId - 0; 
while(completedContainers < numberOfContainers)( 


AllocateResponse allocateResponse - resourceManagerClient. 
allocate(containerId); 
containerId-«-; 


for(Container container : allocateResponse.getAllocatedContainers()) 


ContainerLaunchContext shellContainerContext - Records.newRecord(C 
ontainerLaunchContext.class); 

shellContainerContext.setCommands( 

Collections.singletonList (command + 


" 1» " 十 
ApplicationConstants.LOG DIR EXPANSION VAR + "/stdout " + 
" 25 " ES 


ApplicationConstants.LOG DIR EXPANSION VAR -«"/stderr") 
); 


nodeManagerClient.startContainer(container, shellContainerContext); 


) 

一 旦 容器 启动 后 ， 分 配 资源 的 调用 即 可 用 来 监控 这 些 容 器 ， 我 们 在 下 一 段 代 码 中 展示 这 个 用 
Ro AllocateResponse 对 象 上 的 getcompletedContainersStatuses 方 法 能 获得 每 个 已 完成 
容器 的 状态 。 当 这 些 操作 都 完成 后 ，AM 将 调用 AMRMC1ient 对 象 的 unregisterApplication- 
Master 方 法 取消 在 RM 上 的 注册 。 应 用 的 状态 可 以 被 通知 到 RM， 这 样 客户 端 或 者 其 他 程序 就 可 
以 监控 这 个 应 用 。 
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FinalApplicationStatus 枚 举 类 型 有 FAILED、KILLED、SUCCEEDED 和 UNDEFINED 四 个 
状态 值 。 取 消 注 册 的 操作 也 可 以 获得 需要 传递 的 诊断 信息 ， 以 及 客户 可 以 用 来 获取 AM 终止 相关 
信息 的 新 的 URL 地 址 : 


for(ContainerStatus containerStatus : allocateResponse. 
getCompletedContainersStatuses())í 
completedContainers--; 
System.out.println("Completed Container " + 
completedContainers + " " + containerStatus); 


) 


Thread.sleep(1000); 
} 


resourceManagerClient.unregisterApplicationMaster(FinalApplica 
tionStdtus.SUCCEEDED, "^, ""); 


) 


) 
现在 可 以 通过 下 面 的 命令 执行 应 用 了 。date 命 令 会 在 集群 的 两 个 容器 中 被 运行 : 


hadoop fs -copyFromLocal MasteringYarn-1.0-SNAPSHOT.jar 
hadoop jar MasteringYarn-1.0-SNAPSHOT.jar 


MasteringYarn.DistributedShellClient 
hdfs://localhost/user/sandeepkaranth/MasteringYarn-1.0-SNAPSHOT.jar date 2 


6.3 YARN 的 监控 


RM 提供 了 一 个 友好 的 网 页 界面 来 查看 集群 及 其 资源 。 这 个 网 页 接口 的 主页 给 出 了 很 多 详细 
的 信息 ， 例 如 RM 的 状态 、 应 用 程序 的 数量 、 可 用 内 存 的 总 量 、 节 点 总 数 、 节 点 状态 以 及 其 他 信 
息 。 下 面 的 截屏 图 像 将 展示 这 个 主页 。 


截屏 图 像 的 左边 ， 给 出 了 集群 中 不 同类 型 的 详细 信息 的 导航 链接 。 
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€ [c] localhost: 8088/cluster/cluster 2 a9 
Cli "ara Logged in as: dr.wha 
*» Cluster Cluster Metrics 
About Apps Apps Apps Apps Containers Memory Memory Memory Active Decommissioned Lost — Unhealthy Rebooted 
Nodes Submitted Pending Running Completed Running Used Total Reserved Nodes Nodes Nodes Nodes Nodes 
Applications 1 0 o 1 o 0B 408 0B 1 9 ] 0 2 
New Cluster overview 
BEIC RAT Cluster ID: 1403316861928 
ACCEPTED ResourceManager state: STARTED 
ResourceManager started on: 21-Jun-2014 07:44:21 
REMOVING ResourceManager version: 2.2.0 from 1529768 by hortonmu source checksum 6affía681856213479c75645dc*d660 on 2013-10-07T06:342 
Cg DADO Hadoop version: 2.2.0 from 1529768 by hortonmu source checksum 79653ce7904d16285240109a!91612l4 on 2013-10-07T06:28Z 
FAILED 
KILLED 
Scheduler 
+ Tools 


点 击 左 侧面 板 的 Nodes 链 接 ， 的 详情 。 下 面 的 截屏 图 像 展示 了 单 
个 节点 的 集群 的 样 例 。 对 于 集群 中 的 每 个 节点 ， 截 屏 中 给 出 了 节点 所 属 机 架 的 详情 、 节 点 的 状 
态 、 节 点 的 资源 消费 情况 〈 当前 是 指 内 存 )、 节 点 的 HTTP 地 址 、 节 点 的 最 后 心跳 信息 详情 以 及 
其 他 信息 。 


表格 中 的 “最 后 心跳 更 新 ”( last-health update ) 那 列 ， 显 示 了 RM 最 后 一 次 从 NM 收 到 心跳 信 
息 的 时 间 。 


£ © |: localhost: 8088 /cluster/nodes mz 
Logged in a^: dr. who. 
o — Nodes of the cluster 
* Cluster Cluster Metrics 
About Apps Apps Apps Apps Containers Memory Memory Memory Active Decommissioned Lost Unhealthy Rebooted 
Nodes Submitted Pending Running Completed Running Used Total Reserved Nodes Nodes Nodes Nodes Nodes 
Applications 1 ü 0 1 o 0B 468 on 1 9 Q 9 Q 
NEN Show 20 : entries Search: 
SUBMITTED r 
ACCEPTED Rack . Node v Node Address 5 eU Heim Last health-updale $ Healh-repot — o Dots Mem se Mem Ani 
jdafaulLrack RUNNING 192.188.0.105:52497 192.168.0.105:8042 21-Jun-2014 23:10:25 0 08 4 GB 


FINISHING 
FINISHED Showing 1 to 1 of 1 entries 
FALED 


KILLER 
Scheduler 


* Tools 


左 侧面 板 中 的 Applications 链 接 给 出 了 应 用 的 所 有 详细 信息 , 如 下 图 截屏 所 示 。 应 用 可 以 基于 
它们 所 处 的 状态 被 过 滤 , 例如, NEW, NEW SAVING, SUBMITTED, ACCEPTED, RUNNING, 
REMOVING FINISHING 、FINISHED 、FAILED 和 KILLED, 这 些 过 滤器 可 以 在 左 侧 面板 上 看 到 。 
点 击 其 中 的 一 个 状态 ， 可 以 只 显示 这 个 状态 的 应 用 。 


应 用 的 详细 信息 也 可 以 查看 到 ， 例 如 应 用 的 类 型 、 所 属 的 列队 、 当 前 状态 和 最 终 状态 、 启 动 
和 终止 时 间 、 进 度 以 及 其 他 详细 信息 。 尽 管 网 页 界面 上 你 不 能 执行 命令 ， 但 你 可 以 在 YARN 脚 本 
中 使 用 application ID 来 执行 命令 。 


我 们 将 在 本 章 的 后 续篇 幅 中 介绍 用 来 操作 应 用 的 YARN 命 令 行 。 
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€ > Q D lalhost8088/cluster/apps argo 
z Logged ias: de who. 
(CO Turerafara]a) All Applications 
Cluster Cluster Metrics 
A Apps Apps Ai Apps Containers Memory — Memory Memory Active Decommissioned Lost Unhealthy Rebooted 
Nodes Submitted Poning Running Compisted Punning Usod Total Rewervpd Nodes, Nodes Nodes Noc Nodes 
t 1 o 0 1 0 08 4GB oB 1 9 9 Q 9 
NEW 
NEW SAVING Show 20 : enties Search: 
ACCEPTED ID » User ^ Name ò Application Queue  StatTime FinishTime swe . —FinalStalus Fugen. o Tracking Ul 
NG Type 3 : $ B $ è 
REMOVING application 1403316961920 0001 sandeepkaranth MasteringYam YARN delaut Sat, 21 Sat, 2t Jun FINISHED SUCCEEDED History 
Husni dun2014 204 
FINISHED 093707 021719 
FAILED s 
GMT 
Scheduler Showing 1 to 1 of 1 entras 
Tools 


点 击 Scheduler 链 接 以 展示 RM 使 用 的 调度 器 的 详细 信息 。 网 页 界面 显示 了 队列 的 层级 关系 ， 


并 用 不 同 颜色 标记 容量 、 最 大 容量 、 已 使 用 容量 ， 以 及 每 个 队列 已 使 用 的 超出 配额 外 的 容量 。 后 


续 将 在 调度 器 一 节 更 加 详细 地 介绍 这 些 应 用 队列 的 相关 知识 。 


每 个 正在 执行 的 应 用 的 详细 信息 也 在 这 里 展现 。 这 页 的 标题 给 出 了 本 页 中 被 显示 的 应 用 的 详 
细 状 态 信 息 。 只 有 处 于 NEW 、NEW_SAVING 、SUBMITTED 、ACCEPTED 、RUNNING 和 


FINISHING 状 态 的 应 用 才 被 显示 。 
cluster metrics 是 一 个 贯穿 所 有 展示 RM 的 网 页 界面 的 一 个 汇总 信息 。 下 面 的 截屏 显示 了 amm 


调度 器 页 面 : 


e> 


D localhost:8088/cluster/scheduler Qs 9z 


' Ó HECE Logged in as: dr:wha 


Applications 
= Cluster Cluster Metrics 
About Apps Apps Apps Apps Conlamers Memory Memory Memory Active Decommissioned Lost Unhealthy Rebooted 
Nodes Submitted Pending Ruming Completed Ruming Used Total Reserved Nodes Nodes Nodes Nodes Nodes 
Applications 1 o o 1 o 08 468 o8 4 E] g 9 9 
NEW 
ESPRIT Application Queues 
SUBMITTED | iUES 
ACCEPTED end: ^ Capacit Used  — ' Used (overcapacity) Max Capacit 
RUNNING = PSY e aae inm 
* am root D.O% used 
His > 4 defaum 0.0% used 
FAILED 
KILLED 
Scheduler Show i0 : entres Search: 
» Tools 'D Usare Name Application Type © — Queue StartTime FinishTine © State FinalStatus. Progess © Tracking UI 


NEW,NEW SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHING 


No data available in tabie 
Showing 0 to 0 of 0 entries 


左 侧 


面板 中 有 一 个 Tools 链 接 ， 如 下 面 的 截屏 所 示 。 在 它 展 开 的 列表 中 ， 包 含 了 几 个 项 。 这 


些 工具 能 够 帮助 YARN 集 群 的 管理 员 和 开发 人 员 调 试 应 用 。 
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z Logged in as: dr.who 
C ToraTara]a) All Applications 
r Cluster Cluster ad 
* Tools Apps Apps Apps Containers Memory Memory Memory Active Decommissioned Lost Unhealthy Rebooted 
Submitted Poning Running Piihi Running Used Total Reserved Nodes Nodes Nodes Nodes Nodos 
Cenfiguratian 0 0 0 0 08 4GB — 0B 1 0 0 o 9 
Losal logs 
Server stacks Show 20 + entries Search: 
Server metrics lt — 一 - - — - - E — 
D Use, Name ApplcatonType © Queue + StatTme c FinishTime ^ ?, FinalStatus c Por $ TrackingUl c 
No data available in table 
Showing 0 to 0 of 0 entries. First Previous Nast Last 


Configuration 链 接 向 用 户 展示 YARN 使 用 的 配置 信息 , 这 样 可 以 快捷 容易 地 展示 YARN 集 群 中 
不 同属 性 的 值 。 下 面 的 截屏 显示 了 这 个 配置 页 面 。 配 置 是 以 XML 格式 显示 的 。 


€ > Œ [localhost:8088/conf i 9s 


This XML file docs not appear to have any style information associated with it. The document uve is shown below. 


veconfiguration> 
v4propertys 
nane mapredacn. job. uberkask. onablec/namos 
*value»falsec/value» 
*source»mapred-default.xnle/sourco* 
</property> 
vproperty> 
<nane>yarn.resoureenanager.max-completed-applications</nane> 
*value*10000c/value* 
"ucurce»yarn-default.xmlc/source 
</property> 
veproperty> 
venanes 
yarn.resourcemanager.delayed.delegation-token.removal-interval-ms 
«inane» 
<value>30000</value> 
4source*yarn-default.xml«/source* 
</property> 
v<property> 
<nane>io.bytes.per.checksune/nane> 
<value>512</value> 
Jaourcercore-default.xelt/sourcs> 
</property> 
vepropertys 
"nans»mapreduce.client.submit.file.replication/namo» 
*value»10«/value» 
*source»mapred-default.xnle/source» 
*/propertys 
v «property» 
«name»mapreduce. jobhiatory.cleaner.interval-ma«/namo» 
value c / values 


Local logs 链 接 将 打开 本 地 日 志 目 录 。 点 击 每 个 日 志文 件 可 以 在 浏览 器 中 打开 它 。 下 面 截 屏 
图 片 展示 了 单个 机 器 的 集群 部 署 中 本 地 日 志 的 列表 : 


€ > Œ D localhost:8088/l09s/ 人 国名 三 
Directory: /logs/ 
SccurityAuth-hadoop audit. O bytes 8 Apr, 2014 7:04:13 PM 
O bytes 9 Apr, 2014 3:56:03 PM 
hadoop-hadoop-datanode-Sandceps-MacBook-Pro Jocal.Jog. 57201 bytes 9 Apr, 2014 3:43:01 PM 


hadoop-hadoop-datanode-Sandceps-MacBook-Pro.local.out. 510 bytes 9 Apr, 201. 

d 5 ~ i 510 bytes 8 Apr, 201. 
510 bytes 8 Apr, 2014 7:10: 
597 bytes 8 Apr, 2014 7:06:51 PM 


hadoog-hadoop-datanode-Sandceps-MacBook-Pro JocaLout3. 
hadoog-hadeop-datanode-Sandceps-MacBook-Pro Jocal.outA. 


hadoop-hadoop-namcnodc-Sandccps-MacBook-Pro.JocaLout. 
hadoop-hadoop-namcnedc-Sandecps-MacBook-Pro.Jocal.out.2 
hadoop-hadoop-namenode-- — e Md 


hadoop-sandccpkaranth datanode-Sandecps-MacBook-Pro-Jocalout 
hadoog-sandecpkaranth-datanode-Sandceps-MacBook-Pro local out]. 


597 bytes 8 Apr, 2014 7:04:28 PM 
231034 bytes 9 Apr, 2014 3:42:56 PM. 
510 bytes 9 Apr, 2014 2:20:10 PM 
510 bytes 8 Apr, 2014 7:11:46 PM. 
510 bytes 8 Apr, 2014 7:10:47 PM. 
597 bytes 8 Apr, 2014 7:06:47 PM. 
510 bytes 8 Apr, 2014 7:04:15 PM 
189030 bytes 9 Apr, 2014 3:43:07 PM 
74382 bytes 9 Apr, 2014 3:43:04 PM 


510 bytes 8 Apr, 2014 7: 
597 bytes 8 Apr, 2014 7:07:22 PM 


13093073 bytes. 24 Jun, 2014 2:40:37 PM 


518 bytes 21 Jun, 2014 7:44:02 AM 
518 bytes 20 Jun, 2014 11:10:24 PM 
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Server stacks 链 接 显示 了 服务 端 抛 出 的 异 
了 栈 的 内 容 : 


常 栈 信息 ， 包 括 线程 的 信息 。 下 面 的 截屏 图 像 展 示 


€ œ CQ [D localhost:8088/stacks Y 9 


Process Thread Dump: 
184 active threads 
Thread 193 (8248851678qtp-1138341688-2): 
State: RUNNABLE 
Blocked count: 
Waited count: 
Stack: 
sun.management.ThreadImpl.getThreadInfol(Native Method) 
sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:174) 
sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:139) 
org.apache.hadoop.util.ReflectionUtils.printThreadInfo(ReflectionUtils.java:165) 
org.apache.hadoop.http.HttpServer$StackServlet.doGet(HttpServer.java:950) 
javax.servlet.http.HttpServlet.service(HttpServlet.java:707) 
javax.servlet.http.HttpServlet.service(HttpServlet.java:820) 
org.mortbay.jetty.servlet.ServletBolder.handle(ServletHolder.java:511) 
org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1221) 
com.google.inject.servlet.PFilterChainInvocation.doPFilter(FilterChainInvocation. java:66) 
com.sun.jersey.spi.container.servlet.ServletContainer.doFilter(ServletContainer.java:900) 
com.sun.jersey.spi.container.servlet.ServletContainer.doFilter(ServletContainer.java:834) 
com.sun.jersey.spi.container.servlet.ServletContainer.doFilter(ServletContainer.java:795) 
com.google.inject.servlet.FilterDefinition.doFilter(FilterDefinition.java:163) 
com.google.inject.servlet.FilterChainInvocation.doFilter(FilterChainInvocation.java:58) 
com.google.inject.servlet.ManagedFilterPipeline.dispatch(ManagedFilterPipeline.java:118) 
com.google.inject.servlet.GuiceFilter.doFilter(GuiceFilter.java:113) 
org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletBandler.java:1212) 
org.apache.hadoop.http.lib.StaticUserWebFilter$StaticUserPilter.doFilter(StaticUserWebPilter.java:109) 
org.mortbay.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1212) 
Thread 192 (DestroyJavaVM): 
State: RUNNABLE 
Blocked count: 0 
Waited count: 0 


19 
157 


Stack: 
Thread 15 (ApplicationMaster Launcher): 
State: WAITING 


Blocked count: 0 
Waited count: 1 


。 点 击 节点 将 进入 NodeManager 界 面 。 页 面 左边 的 面板 展 
这 个 截屏 中 展示 了 某 个 节点 的 信息 。 


Server metrics 链 接 打开 度量 的 页 面 
示 了 NM 相关 的 链接 ， 如 下 面 的 截屏 图 像 所 示 " 


D 192.168.1.2:8042/node F 


Logged in as: ,who 


+ ResourceManager NodeManager information 
Es Total Vmem allocated for Containers 8.40 GB. 

NodeManager Vmem enforcement enabled true 

Noge Infermatica Total Pmem allocated for Container 4GB 

Listat x Pmem enforcement enabled true 

Bpplicai ons " NodeHealthyStatus true 

Hat of Containers LastNodeHealthTime Tue Jun 24 16:56:48 IST 2014 
» Tools NodeHealthReport 

Node Manager Version: 2.2.0 from 1529768 by hortonmu source checksum &afffa661856213479075e45dcfdBe0 on 2013-10-07T06:342 
Hadoop Version: 2.2.0 from 1529768 by hortonmu source checksum 796e53ce79944162802240109af91e1af4 on 2013-10-07T06:28Z 


点 击 ListofApplications 链 接 ， 用 户 会 进 


入 一 个 如 下 图 所 示 的 界面 。 在 这 里 ， 这 个 节点 正在 执 


行 的 应 用 的 列表 将 会 显示 应 用 的 状态 。 
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e [ej 192.168.1.2:8042/node/allApplications ^uaos 


(PE Applications running on this node I 


-ResourceManager Show 20 : entries Search: 
Applicationid ^  ApplicationState 

* NodeManager 

» Tools RUNNING 


Showing 1 to 1 of 1 entries. 


MEME 


点 击 NodeManager 菜 单项 列表 中 的 List of Containers 链 接 ， 将 会 得 到 这 个 NM 上 正在 执行 的 容 
器 详细 信息 ， 以 及 每 个 容 需 的 状态 。 这 里 也 有 一 个 链接 可 以 打开 日 志 目录 。 


€ © (3192.168.1.2:8042/node/allContainers "a9 5 
" Logged in as; dr.who 
Qr Torerafaraya) All containers running on this node 
*ResourceManager Show 20 : entres Search: 
RM Home 
Containarid ~  ContainarState ? legs 
* NodeManager 
LE jer 14 1 RUNNING togs 
Showing 1 to 1 of 1 entries 


6.4 YARN 中 的 作业 调度 


大 部 分 的 集群 资源 是 要 支持 多 租户 的 ， 也 就 是 说 ， 多 个 团队 或 群体 共享 集群 的 资源 。 调 度 器 
的 一 个 重要 责任 就 是 通过 对 集群 资源 进行 合理 分 配 , 从 而 满足 所 有 租户 的 资源 需要 。 每 个 团队 或 
个 人 单独 拥有 一 个 集群 的 话 ， 会 造成 极 低 的 资源 利用 率 ， 因 此 是 不 可 取 的 。 

YARN 通 过 搬 件 的 方式 提供 调度 策略 。 最 初版 本 的 Hadoop 只 有 一 个 简单 的 先入 先 出 〈 first in 


first out, FIFO ) 调 度 器 。 但 是 ,FIFO 在 处 理 复杂 的 多 租户 情况 下 是 不 够 的 。 我 们 将 讨论 如 今 Hadoop 
中 使 用 的 两 个 调度 器 : 容量 调度 器 和 公平 调度 器 。 


6.4.1 容量 调度 器 

容量 调度 器 的 基本 概念 是 : 在 一 个 共享 集群 中 保证 承诺 给 某 个 租户 的 资源 配额 。 如 果 一 个 租 
户 使 用 的 资源 少 于 他 们 要 求 的 配额 , 那 调度 会 允许 该 租户 继续 使 用 空闲 的 资源 。 容 量 调度 器 的 首 
要 目标 就 是 不 允许 单一 的 应 用 或 用 户 贪 禁 地 占用 集群 的 资源 。 调 度 器 强制 且 严 格 限制 集群 中 租户 
对 共享 资源 的 使 用 。 


容量 调度 器 基于 队列 进行 调度 。 管 理 员 基 于 租户 的 需求 配置 这 些 队 列 。 层 次 化 队列 被 用 于 共 
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ES 


P, 


E, 


Ho 


列 。 


和 群 中 未 被 充分 利用 的 资源 。 层 次 化 的 结构 确保 了 资源 优先 分 配给 那些 已 申请 此 资源 配额 的 租 
而 不 是 其 他 的 租户 。 
每 个 队列 拥有 一 个 管理 员 可 配置 的 配额 , 且 集 群 中 所 有 队列 配额 的 总 和 决定 了 集群 的 资源 总 
一 个 队列 的 配额 是 弹性 的 , 所 以 调度 器 可 以 将 没有 被 使 用 的 配额 从 一 个 队列 转移 到 另 一 个 队 
这 种 被 重新 分 配 的 资源 , 在 它 原 属 的 队列 需要 资源 来 满足 配额 的 时 候 可 以 被 召回 。 一 个 队列 


可 以 指定 它 能 占用 资源 的 最 大 值 。 另 外 ， 每 个 队列 也 可 以 指定 每 个 用 户 使 用 资源 的 限制 值 。 


除了 层次 化 队列 ， 容 量 调度 需 还 有 如 下 特性 。 


口 容量 调度 器 有 一 系列 安全 特性 。 每 个 队列 都 有 ACL 来 授权 哪些 用 户 可 以 向 这 个 队列 提交 
作业 。 用 户 的 作业 是 被 隔离 的 ， 从 而 避免 了 用 户 修改 其 他 用 户 提交 的 作业 。 调 度 器 也 引 
和 人 了 队列 管理 员 和 系统 管理 员 两 个 角色 的 概念 。 

口 容量 调度 器 是 动态 的 ， 也 就 是 说 ， 它 的 属性 〈 例 如 队列 定义 和 ACL ) 可 以 在 运行 时 改变 。 

运行 时 删除 队列 是 不 允许 的 ， 但 是 添加 新 队列 却 可 以 。 

口 管理 员 可 以 停止 队列 ， 从 而 阻止 新 的 作业 被 提交 到 这 个 队列 及 其 子 队 列 上 。 已 存在 的 作 

业 可 以 继续 运行 , 但 已 经 没有 了 资源 的 优先 使 用 权 。 一 旦 队列 中 的 作业 都 被 执行 结束 ， 

管理 员 可 以 启动 这 些 被 停止 的 队列 。 

a 要 求 使 用 更 多 资源 的 应 用 (例如 作业 中 包含 多 个 map 和 reduce 组 合 任务 ) 也 可 以 在 容量 调 
度 器 中 运行 。 只 要 作业 使 用 的 资源 没有 超出 队列 的 配额 ， 容 量 调度 器 就 会 基于 资源 进行 
作业 调度 。 


在 YARN 中 ， 容 量 调度 器 可 以 使 用 下 面 的 方法 以 插件 的 形式 运行 。 


a RM 可 以 直接 使 用 容量 调度 器 ， 只 要 设置 yarn.resource.manager.scheduler.class 属 

性 为 org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity. 
CapacityScheduler。 这 个 配置 可 以 放置 在 yarn-site.xml 配 置 文件 中 。 

口 队列 可 以 通过 添加 一 个 名 为 capacity-schedulerxml 的 文件 来 进行 配置 。 这 是 容量 调度 顺 的 
配置 文件 。 一 个 名 为 root 的 预定 义 队列 已 经 存在 ， 且 创建 的 任何 队列 都 是 root 队 列 的 一 个 
子 队 列 。 

D yarn.scheduler.capacity.root.queues 属 性 用 于 定义 新 添加 的 队列 。 队 列 通 过 一 
系列 以 逗号 分 隔 的 队列 名 指定 。 队 列 的 层级 通过 队列 路 径 (queue path) 指定 。 队 列 路 径 

是 一 个 特殊 的 属性 名 字 ， 它 从 root 队 列 开始 ,使 用 点 (. ) 标记 树 形 的 队列 路 径 。 如 下 的 配 

置 文件 代码 片段 展示 了 两 层 的 队列 结构 。 队 列 x、y 和 z 是 root 的 子 队列 ， 队 列 x1 和 x2 是 x 的 

子 队 列 ， 它 们 的 队列 路 径 是 root.x: 


<property> 

«name»yarn.scheduler.capacity.root.queues«/name» 
«value»x,y,z«/value» 

«description»The queues at the this level (root is the root 
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queue). «/description» 
«/property» 
«property» 


«name»yarn.scheduler.capacity.root.x.queues«/name» 


«value»x1,x2«/value» 


«description»The queues at the this level (root is the root 


queue). «/description» 
«/property» 


口 每 个 队列 的 资源 分 配 特点 可 以 通过 如 下 


属性 进行 描述 。 


m yarn.scheduler.capacity.«queue-path».capacity: 这 个 属性 以 集群 总 资源 百 


分 比 的 形式 配置 每 个 队列 的 资源 配额 ， 它 的 值 类 型 是 浮 点 型 。 在 层级 队列 结构 中 的 每 
个 层级 ， 所 有 队列 的 这 个 属性 值 的 和 必须 等 于 100。 这 是 一 个 软 限制 ， 因 为 如 果 有 未 被 


使 用 的 资源 可 用 ， 队 列 中 的 作业 就 可 以 使 用 这 些 资源 ， 从 而 提供 弹性 。 


m yarn.scheduler.capacity.«queue-path».maximum-capacity: 这 个 属 怕 


E 用 来 


给 队列 设置 一 个 配额 的 硬 限制 。 这 个 硬 限制 配额 也 是 一 个 浮 点 型 ， 并 限制 了 队列 的 弹 
性 。 默 认 值 是 -1， 也 就 是 对 弹性 没有 限制 。 


m yarn.scheduler.capacity.«queue-path».minimum-user-limit-percent:iX 


是 一 个 整数 类 型 的 属性 ， 用 于 限制 队列 中 单个 用 户 能 够 分 配 的 资源 比例 。 这 个 限制 应 


该 仅 在 有 资源 需求 的 时 候 使 用 。 例 如 ， 如 果 我 们 将 值 设置 为 0， 单 个 用 户 的 情况 可 以 


使 用 100% 的 配额 ， 两 个 用 户 分 别 只 和 全 


bE 分 配 50% 的 资源 。 然 而 ， 超 过 两 个 月 


将 等 待 已 经 存在 的 用 户 应 用 完成 后 再 调度 下 一 个 用 户 的 应 用 。 该 属性 的 默认 值 是 


m yarn.scheduler.capacity.«queue-path».user-limit-factor: 这 个 


多 个 队列 的 配额 可 以 被 此 用 户 使 用 。 举 个 例子 ， 假 如 这 个 属 司 


H^, YS 


100, 


属性 指示 


配置 为 2， 此 队列 中 的 一 


个 用 户 可 以 分 配 得 到 两 倍 于 队列 配额 的 资源 。 这 只 有 在 集群 有 足够 的 配额 且 是 空闲 的 


时 候 才 会 发 生 。 该 属性 的 值 是 一 个 浮 
O 容量 调度 器 支持 如 下 的 属性 ， 从 而 控制 正在 执行 的 应 用 的 


点 型 ， 默 认 值 是 1。 


Hl 


性 。 


m yarn.scheduler.capacity.maximum-applications: 这 个 属性 决定 了 集群 中 处 
于 活跃 状态 的 应 用 的 最 大 数量 。 这 是 一 个 硬 限 制 ， 如 果 已 提交 的 应 用 超过 这 个 限制 ， 
将 不 再 允许 应 用 提交 。 默 认 值 是 10 000。 


m yarn.scheduler.capacity.«queue-path».maxi 
是 每 个 队列 对 上 一 个 属性 的 重 载 (override ) MAJE PH 


myarn.scheduler.capacity.maximum-am-resource-percent: 这 个 属性 


um-applications: 这 
FE 的 类 型 都 是 整 


个 属性 
AJ (integer) 


FE 决 定 了 


集群 中 分 配给 AM 的 资源 能 够 占 集群 资源 的 百分比 。 默 认 值 是 0.1 ， 也 就 是 ，AM 的 容器 


能 占用 集群 10% 的 资源 。 


sa 


W yarn.scheduler.capacity .<queue-path>.maximum-amresource-percent: X 


个 属性 是 每 个 队列 对 于 分 配给 AM 资源 的 配置 。 
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口 容器 调度 器 支持 如 下 的 属性 ， 从 而 能 帮助 设置 集群 授权 和 队列 运行 时 的 参数 。 


WB yarn.scheduler.capacity.«queue-path».state: 这 个 属性 用 于 设置 队列 的 状 
态 。 它 可 能 是 RUNNING 或 者 STOPPED 状 态 。 当 处 于 STOPPED 状 态 时 ， 队 列 不 再 允许 


提交 应 用 ， 但 是 已 经 存在 的 应 用 可 以 执行 和 结 


m yarn.scheduler.capacity.«queue-path».acl submit applications: 这 个 


B yarn.scheduler.capacity.«queue-path».acl administer queue: 这 


决定 了 能 够 管理 队列 及 其 子 队列 的 用 户 。 


口 yarn rmadmin 命 令 可 以 用 于 更 新 RM 的 配置 ， 并且 不 需要 重启 RM。 


6.4.2 ”公平 调度 器 


属性 决定 了 能 够 提交 到 这 个 队列 及 其 子 队 列 的 用 户 。ACL 会 继承 父 队 列 ， 并 且 可 以 通 
过 一 系列 逗号 分 隔 的 用 户 或 组 列表 进行 配置 。 通 配 符 (* ) 可 以 用 来 代表 任何 用 户 


AD 
HE 


个 属 


正如 这 个 名 字 所 暗示 的 ， 公 平 调度 器 这 个 概念 背后 是 对 所 有 运行 的 应 用 一 般 提供 相同 的 资 
源 。 公 平 调度 器 将 应 用 组 织 到 池 (pool) 或 队列 ， 然 后 在 不 同 的 池 之 间 共 享 对 资源 的 使 用 时 间 。 


调度 器 周期 性 地 检查 每 个 应 用 在 集群 中 已 经 得 到 的 计算 时 间 以 及 在 理想 条 


时 间 。 


件 下 它 应 该 得 到 的 总 


应 用 按照 时 间 差 额 (deficit ) 降序 排序 ， 下 一 个 被 调度 的 应 用 将 是 差额 最 大 的 那个 。 层 次 化 


的 池 也 存在 于 公平 调度 之 中 。 
在 YARN 中 配置 公平 调度 器 ， 需 要 考虑 以 下 几 点 。 


O RM 可 以 通过 配置 yarn.resourcemanager.scheduler.class 


B 


的 值 为 org .apache . 


hadoop.yarn.server.resourcemanager.schedul r.fair.FairScheduler 3X j& 


定 使 用 公平 调度 器 。 这 个 配置 可 以 在 yarn-site.xml 中 指定 。 
a 其 他 的 属性 可 以 设置 在 这 两 个 文件 中 。 


yarn-site.xml 一 般 用 于 定义 全 局 的 调度 器 属性 。 


m 一 个 分 配 文件 Callocation file ) 用 于 为 队列 或 池 指定 诸如 权重 和 配额 之 类 的 属性 。 这 个 
文件 每 十 秒 加 载 一 次 。 当 文件 重新 加 载 后 ， 文 件 的 修改 就 会 生效 。 


口 yam-site.xml 文 件 中 重要 的 全 局 属性 如 下 所 示 。 


yatrn.scheduler.fair.allocation.file: 这 个 属性 包含 了 分 配 文 件 的 路 径 。 这 是 


一 个 XML 格式 的 文件 ， 它 指定 了 每 个 池 或 队列 的 属性 。 它 的 默认 值 是 fair-schedulerxml 


文件 。 


m yarn.scheduler.fair.use-as-default-queue: 这 个 属性 的 值 是 布尔 类 型 的 。 如 
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果 设 置 为 Lrue， 它 会 使 用 与 分 配 关 联 的 用 户 名 作为 池 或 者 队列 的 名 字 ; 如 果 设 置 为 
false， 就 会 有 一 个 名 为 default 的 共享 队列 ， 所 有 作业 都 会 分 配 到 这 个 队列 。 它 的 默认 


值 是 t rueo 


yarn.scheduler.fair.sizebasedweight: 这 是 一 个 布尔 类 型 的 属性 , 它 表 明 是 否 
所 有 的 应 用 都 拥有 相同 的 权重 。 它 的 默认 值 是 Ealse, 也 就 是 所 有 的 应 用 都 拥有 相同 的 
权重 。 如 果 设 置 为 true， 应 用 将 拥有 一 个 权重 ， 权 重 的 计算 方法 是 : 将 应 用 请 求 的 内 
存 数 加 1， 然 后 以 2 为 基数 取 对 数值 。 

m yarn.scheduler.fair.locality.threshold.node: 这 个 属性 的 值 是 在 0 到 1 之 间 
的 浮 点 型 。 当 要 求 容器 在 特定 的 节点 上 以 利用 资源 局 部 性 时 ， 如 果 容 器 不 能 在 这 个 特 
定 的 节点 上 分 配 ， 应 用 可 能 就 要 延迟 分 配 操作 。 这 个 特殊 的 属性 值 决定 了 在 分 配 不 具 
有 局 部 性 的 节点 前 应 该 延 时 的 总 数 。 这 个 值 是 集群 大 小 的 一 个 分 数 。 默 认 值 是 -1.0, 代 


表 着 调度 顺 分 配 容 需 时 没有 任何 延 时 。 


m yarn.scheduler.fair.locality.threshold.rack: 这 个 属性 和 上 一 个 属性 非常 


相似 ， 然 而 ， 与 之 不 同 的 是 ， 这 个 


m yarn.scheduler.fair.allow-u 


s HERE REB Ie n BLA Je BTE; 


ndeclared-pools: 这 是 一 个 布尔 型 的 属性 , 在 应 


ny 


用 被 提交 到 RM 时 ， 它 决定 了 新 的 队列 是 否 被 创建 。 如 果 设 置 为 false， 任 何不 属于 分 


配 文件 指定 的 应 用 都 将 分 配 型 


默认 池 中 o 


a 分 配 文 件 定义 了 集群 中 的 池 或 者 队列 。 它 是 一 个 XML 格式 的 清单 文件 ， 包 含 如 下 元 素 : 


minSharePreemptionTimeout 


队列 元 素 

minResources 直 的 格式 为 A mb, B vcores， 指 明 这 个 队列 的 最 小 资源 数 。 如 果 条 件 不 能 被 
， 资 源 将 从 父 队列 中 重新 分 配 

maxResources 这 个 标签 对 应 的 值 指定 了 一 个 队列 能 消费 的 最 大 资源 。 如 果 超 出 最 大 资源 ， 就 不 会 

分配 容器 给 这 个 队列 

maxRunningApps 这 限制 某 个 特定 的 队列 能 够 同时 运行 的 应 用 数量 的 上 限 值 

weight 直 定 义 了 这 个 队列 能 够 使 用 的 资源 的 比例 ， 它 是 相对 于 默认 值 而 言 的 。 默 认 值 
。 如 果 权 重 为 2， 那 它 使 用 的 资源 数 就 是 默认 情况 下 的 两 倍 

schedulingPolicy 许 的 值 为 fifo、drf 或 者 fair 

aclSubmitApps 这 个 ACL 是 为 了 限制 能 够 向 这 个 队列 提交 作业 的 用 户 和 组 。 与 容量 调度 器 的 ACL 的 

aclaaministerapps 这 个 ACL 表 明了 可 以 对 这 个 队列 执行 管理 功能 的 用 户 和 组 


的 最 小 资源 配额 (minResources) 没有 被 满足 的 条 件 下 ， 如 果 获 取 不 到 空 


IDE. EAE 


段 时 间 。 当 超时 后 ， 它 就 会 从 其 他 队列 抢占 容器 。 这 个 超时 时 


定义 的 


用 户 元 素 


maxRunningApps 


单个 用 户 能 够 运行 的 应 用 数量 的 上 限 


队列 位 置信 息 策略 元 素 说 明 
rule XML 文件 中 的 这 个 特殊 节点 包含 了 被 提交 的 应 用 应 该 如 何 放置 到 队列 中 的 规则 。 可 能 有 很 
多 规则 ， 每 个 规则 按照 声明 的 顺序 被 执行 。 例 如 ， 给 定 的 规则 会 将 应 用 放置 到 提交 时 指定 
的 队列 中 。 如 果 没 有 指定 队列 ， 将 放置 到 默认 队列 中 。“user” 规 则 将 应 用 放置 在 以 用 户 名 
为 名 字 的 队列 中 


下 面 给 出 了 分 配 文件 的 XML: 


g 


<?xml version="1.0"?> 
<allocations> 
<queue name=""> 
<minResources></minResources> 
<maxResources>A mb, B vcores</maxResources> 
«maxRunningApps»«/maxRunningApps» 
«weight»1.0«/weight» 
«schedulingPolicy»fair«/schedulingPolicy» 
«queue name-"sub queue name"-» 
«aclSubmitApps»usernamec/aclSubmitApps» 
<!-- 其 他 的 队列 属性 可 以 设置 在 这 里 --> 
«/queue» 
«/queue» 


«user name-"username"» 
«maxRunningApps»«/maxRunningApps-» 
«/user» 
«queuePlacementPolicy» 
«rule name-"specified" /» 
«rule name-"user" /» 
«rule name-"primaryGroup" create-"false" /> 
«rule name-"default" /> 
«rule name-"reject" /> 
«/queuePlacementPolicy» 
«/allocations» 


65 YARN 命令 行 
像 Hadoop 一 样 ，YARN 有 一 些 脚 本 提供 管理 YARN 的 命令 。 这 些 命令 有 如 下 两 种 类 型 。 
口 用 户 命令 : 这 是 为 集群 用 户 提供 的 命令 行 
口 管理 员 命 令 : 这 是 为 集群 管理 员 提 供 的 命令 行 

在 Hadoop 的 部 署 中 ，YARN 脚 本 与 Hadoop 脚 本 放置 在 相同 的 目录 下 。YARN 脚 本 的 通用 语法 
如 下 : 


yarn [--config «config directory»] command [options] 


--config 选 项 用 于 覆盖 默认 的 配置 。 默 认 的 配置 文件 目录 将 从 环境 变量 SHADOOP_PREEFIX/ 
conf 中 获得 。 


E 
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651 用 户 命 令 


下 面 是 YARN 中 的 一 些 重 要 的 用 户 命 令 行 。 


口 


口 


口 


6.5.2 


jar 命 令 行 用 于 运行 一 个 用 户 构 建 的 自 定义 JAR 文 件 。 在 前 面 的 分 布 式 shell 的 例子 中 ， 我 
们 使 用 如 下 的 命令 行 在 YARN 中 运行 这 个 作业 。 命 令 行 如 下 : 


yarn jar «jar file path» [main class name] [arguments...] 


application 命 令 用 于 操作 YARN 中 正在 运行 的 应 用 。 它 有 三 个 操作 : 显示 集群 中 正在 
运行 的 应 用 ; 获取 应 用 的 状态 ; 终结 一 个 正在 运行 的 应 用 。 显 示 操 作 可 以 使 用 应 用 的 状 
态 和 应 用 类 型 作 过 滤 : 

yarn application -list [-appStates «state identifiers» | - 


appTypes «type identifiers»] | -status «application id» | - 
kill «application id» 


node 命 令 行 用 于 报告 集群 中 节点 的 状态 。 它 有 两 个 操作 : Eo BEER ROBUR: 
个 节点 的 状态 。1ist 命 令 也 可 以 过 滤 特 定 状 态 的 节点 : 


yarn node -list [-all | -states «state identifiers» | -status 
«node id» 


1ogs 命 令 行 用 于 输出 已 经 完成 的 应 用 的 日 志 。 它 有 两 个 操作 : 输出 某 个 用 户 的 日 志 ; 4 
于 容 回 标识 和 节点 地 址 输出 日 志 。 应 用 ID 是 必需 的 参数 ; 


yarn logs -applicationId «application Id» -appOwner «appOwner» 
| (-nodeAddress «node address» & -containerId «container Id») 


c LAA 
管理 员 命令 


YARN 中 重要 的 管理 员 命令 行 如 下 所 示 。 


口 


口 


使 用 resourcemanager 、nodqemanager 和 proxyservezr 人 参数 启动 对 应 的 守护 进程 : 
yarn resourcemanager | nodemanager | proxyserver 

管理 员 可 以 通过 rmagmin 命 令 来 操作 RM。 这 个 命令 有 如 下 几 个 操作 。 
-refreshQueues: 该 操作 更 新 所 有 队列 的 ACL、 状 态 和 调度 器 属性 。 
-refreshNodes: 该 操作 更 新 RM 中 特定 节点 的 信息 。 
-refreshUserToGroupMappings: 该 操作 更 新 用 户 成 员 关 系 的 所 有 映射 。 
-refreshSuperUserGroupsConfiguration: 该 操作 更 新 超级 用 户 相 关 的 映射 。 
-refreshAdminAcls: 该 操作 更 新 ACL， 用 以 决定 访问 RM 管理 员 的 权限 。 
-refreshServiceAcl: 该 操作 重新 加 载 KM 中 的 授权 文件 。 


管理 员 可 以 通过 daemon1og 命 令 获取 并 设置 YARN 守 护 进程 的 日 志 级 别 : 
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yarn [-getLevel «daemon host:port» «name»| -setLevel «daemon 
host:port» «name» «level»] 


6.6 小结 


YARN 使 得 Hadoop 生 态 系统 向 范围 更 广 的 应 用 开放 。 它 不 仅 减 轻 了 基于 MapReduce 的 传统 
Hadoop 的 扩展 性 瓶颈 ， 也 帮助 提升 了 一 个 机 构 中 集群 框架 的 效率 。 如 下 的 几 点 至 关 重 要 。 


Q 将 应 用 相关 的 逻辑 与 资源 管理 隔离 。RM 单 独 负 责 集群 资源 的 管理 ， 且 任何 应 用 对 它 而 言 

都 是 未 知 的 。 

a 提供 通用 的 资源 规格 抽象 。 资 源 是 通过 CPU 核 数 和 内 存 来 指定 的 。 

口 维持 原 有 的 Hadoop API 的 后 向 兼容 。 通 过 重新 编译 ， 已 有 的 Hadoop 程 序 不 需要 任何 代码 

修改 就 可 以 在 YARN 上 工作 。 

a 提供 了 插件 式 的 多 样 调度 策略 ， 例 如 公平 调度 器 和 容量 调度 器 。 插 件 式 的 策略 使 得 其 他 
模式 的 应 用 更 容易 加 入 到 这 个 生态 圈 中 。 

在 Hadoop 上 开发 一 个 新 的 计算 模式 的 应 用 就 是 实现 一 个 客户 端 和 AM。 这 些 组 件 与 RM 和 NM 
交互 以 达到 它们 的 目标 。 和 MapReduce 一 样 ， 像 Spark 和 Storm 这 样 的 应 用 变 成 了 Hadoop 牛 态 圈 中 
的 一 等 公民 。YARN 使 得 这 样 的 愿望 成 为 现实 。 

在 下 一 章 , 我 们 将 讨论 Storm,， 看 看 它 如何 被 集成 到 Hadoop 中 。Storm 是 一 个 基于 集群 的 实时 
流 处 理 引擎， 它 可 以 操作 流 数 据 。 


基于 YARN 的 Storm 一 一 
Hadoop 中 的 低 延 时 处 理 


Hadoop MapReduce 建 立 在 “将 计算 移动 到 数据 ”的 概念 之 上 。 数 据 要 明显 大 于 操作 它 的 指 
令 。 网 络 是 任何 分 布 式 数据 处 理 系统 中 最 慢 的 组 件 ， 所 以 很 自然 地 应 该 移动 数据 量 小 的 那 部 分 ， 
也 就 是 程序 本 身 。 在 NameNode 的 帮助 下 ，Hadoop 可 以 明确 地 知道 数据 如 何 分 布 在 集群 的 各 个 计 
算 机 中 。 它 使 用 这 些 数据 的 分 布 信息 将 任务 分 配 到 合适 的 节点 , 尽 最 大 的 努力 将 任务 分 配 到 它 所 
需要 的 那些 数据 的 附近 。 


在 本 章 中 , 我 们 将 讨论 一 种 相反 的 模式 ， 即 移动 数据 到 计算 ， 也 就 是 一 种 被 称 为 流 式 处 理 的 
模式 。 有 很 多 框架 实现 了 流 式 处 理 , 其 中 比较 流行 的 一 个 是 Apache Storm; Apache Storm 与 Hadoop 
YARN 的 集成 ， 将 流 式 处 理 带 入 了 Hadoop。 本 章 中 ,我 们 将 讨论 以 下 主题 : 


口 对 照 比 较 流 式 处 理 模式 与 诸如 MapReduce 的 批 处 理 模 式 
口 介绍 Apache Storm 中 的 重要 概念 

口 了 解 如 何 使 用 Apache Storm 开 发 应 用 程序 

口 了 解 如 何 安 装 基于 YARN 的 Apache Storm 


7.1. 批 处 理 对比 流 式 处 理 


MapReduce 是 一 种 批 处 理 模 型 。 在 处 理 完成 以 前 , 数据 会 不 断 累 积 , 因此 导致 周转 时 间 更 长 ， 
同时 也 带 来 了 存储 、 内 存 及 系统 计算 资源 上 的 压力 。 从 分 析 开 始 到 结束 ， 总 有 一 批 数据 需要 一 直 
被 使 用 着 ,从 而 占用 了 存储 资源 。 如 果 分 析 一 大 块 数据 ， 那 将 给 计算 集群 中 的 节点 带 来 短 时 间 的 
峰值 负载 。 


批 处 理 模 型 也 导致 了 集群 资源 的 低 利用 率 。 在 数据 累积 时 ， 集 群 的 计算 和 内 存 是 空闲 的 。 然 
而 ， 当 进行 分 析 时 , 它们 却 又 会 遇 到 峰值 负载 。 这 样 的 话 , 集群 的 配置 则 必须 满足 峰值 负载 才 行 。 


批 处 理 系统 的 这 些 缺 点 在 流 式 计算 模型 中 得 到 了 弥补 。 它 并 不 是 移动 计算 到 数据 ,而 是 让 数 
据 像 水 流 一 样 流 过 计算 节点 。 每 个 计算 节点 都 是 对 那些 数据 点 或 是 小 窗口 的 数据 进行 操作 , 然后 
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分 析 和 输出 结果 ,或 是 更 新 中 间 状 态 。 计 算 节 点 形成 一 个 拓扑 结构 ， 就 像 一 个 连续 的 正在 执行 的 
查询 一 般 。 现 在 , 周转 时 间 变 短 了 , 因为 分 析 并 不 是 在 数据 批 次 的 最 后 才 被 完成 , 而 是 连续 完成 。 
此 外 , 分 析 是 在 非常 小 的 数据 集 上 完成 的 。 这些 系 统 提供 了 近 实时 的 分 析 ， 即 一 旦 系统 收 到 数据 
就 马上 进行 分 析 。 


让 我 们 举 个 例子 说 明 一 下 。 比 方 说 我 们 有 一 个 任务 , 基于 车 辆 的 颜色 统计 通过 州 际 公 路 某 个 
点 的 车 辆 数 , 然后 报告 一 个 小 时 内 每 种 颜色 的 车 辆 数 。 如 果 用 批 处 理 的 方法 ,我们 就 得 把 一 个 小 
时 内 开 过 来 的 车 辆 都 停 下 来 ,并 在 附近 包 下 一 个 停车 场 , 将 这 些 车 都 停 进去 。 然 后 在 这 个 小 时 结 
束 的 时 候 ， 我 们 跑 到 停车 场 ， 统 计 每 种 颜色 的 车 辆 数量 。 


与 此 相反 , 流 式 处 理 的 方法 则 是 使 用 一 个 基于 颜色 的 累加 器 ， 当 车 辆 通过 时 就 解决 这 个 问题 
了 ， 而 在 这 个 小 时 结束 的 时 候 ， 就 已 经 得 出 每 种 颜色 的 统计 数 。 缺 点 是 ， 如 果 我 们 在 统计 或 是 分 
辨 颜色 时 出 了 点 错误 ,就 没有 办 法 从 中 恢复 。 但 是 如 果 用 批 处 理 的 方法 ,我 们 则 有 机 会 对 我 们 的 
计算 做 双重 检查 。 

流 式 处 理 系统 在 那些 以 低 延迟 为 主要 目的 的 应 用 中 大 放 光 彩 。 然而 , 想 要 实现 这 个 目的 是 需 
要 一 定 的 妥协 的 。 只 观察 少数 的 点 就 做 出 决定 ,会 使 结果 失去 一 定 的 准确 性 。 此 外 , 不 是 所 有 的 
分 析 算 法 都 适用 流 式 处 理 模型 。 流 式 处 理 模 型 不 适用 那些 需要 多 次 遍历 数据 的 算法 ,同时 也 不 适 
用 那些 只 通过 查询 整个 数据 集 就 得 出 结论 的 场合 。 

下 面 的 图 对 比 了 批 处 理 和 流 式 处 理 。 第 一 张 图 显示 的 是 批 处 理 : 


数据 存储 


in A 
Z 


批 处 理 作业 


存储 和 处 理 


下 图 是 流 式 处 理 : 


连续 查询 


计算 Topology 


结果 
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7.2 Apache Storm 


Apache Storm 是 最 流行 的 开源 流 式 处 理 引擎 之 一 ， 提 供 了 在 无 限 数据 流 上 进行 实时 分 析 的 能 
力 。 它 是 分 布 式 的 框架 ,可 以 在 多 个 节点 上 工作 ， 同 时 提供 容错 性 和 横向 扩展 性 。Apache Storm 
的 男 一 个 主要 特征 是 它 保 证 事务 的 处 理 , 也 就 是 说 , 每 一 个 进入 系统 的 事务 都 会 处 理 , 肯定 不 会 
遗漏 。Apache Storm 应 用 程序 的 开发 语言 可 以 任 由 开发 者 自己 选择 ， 这 一 点 使 它 在 低 延 迟 分 析 的 
使 用 上 具有 非常 大 的 吸引 力 。 


MapReduce 提 供 基 本 的 Map 和 Reduce 也 数 用 于 创建 批 处 理 的 应 用 程序 。 同样 ,Storm 也 提供 它 
自己 的 一 套 机 制 用 于 支持 实时 分 析 。 如 果 没 有 像 Apache Storm 这 样 的 框架 ,那么 实时 分 析 应 用 程 
序 的 编写 工作 将 会 非常 复杂 。 它 将 需要 添加 和 维护 处 理 队 列 , 以 保证 系统 中 所 有 事务 都 得 到 处 理 。 
它 还 需要 编写 一 个 能 够 读 取 队列 、 处 理 数 据 ， 最 后 为 了 下 游 处 理 重新 将 程序 放 入 队列 的 worker 程 
序 。 错 误 处 理 、worker 与 队列 间 的 同步 性 也 会 成 为 开发 者 的 负担 。 


维护 队列 和 worker 所 需要 付出 的 努力 要 远 远 高 于 数据 处 理 逻 辑 本 身 。 当 吞吐 量 非常 高 的 时 
候 , 数据 流 的 分 区 给 系统 的 可 扩展 性 带 来 了 威胁 , 同样 也 给 开发 者 的 时 间 和 精力 带 来 了 额外 的 开 
销 。 另 外 ， 提 供 容 错 性 也 不 是 一 件 简单 的 事 。Apache Storm 尝 试 着 抽象 这 些 复杂 性 ， 并 提供 一 些 
特性 ， 用 以 改进 实时 系统 的 可 靠 性 和 可 用 性 。 


7.2.1 Apache Storm 的 集群 架构 

Storm 集 群 上 运行 的 是 长 期 存在 的 查询 ， 而 不 是 作业 。 批 处 理 系统 则 正好 相反 ， 将 作业 当成 
自己 的 基本 单元 。 这 两 者 间 的 关键 区 别 在 于 ,作业 最 终 会 执行 完成 ， 而 长 期 存在 的 查询 则 不 会 终 
JE (除非 你 明确 得 将 它们 终止 )。 这 些 长 期 存在 的 查询 被 称 为 topology。 

Storm 集 群 中 有 两 种 不 同类 型 的 节点 。 
口 Master 节 点 : 它 上 面 会 运行 Nimbus 守 护 进程 ,类似 于 Hadoop MRv1 里 的 JobTracker 的 功能 。 
口 Worker 节 点 : 它 上 面 会 运行 Supervisor 守 护 进程 ， 类 似 于 Hadoop MRv1 里 的 TaskTracker 的 
功能 。 
Master 节 点 是 一 种 具有 以 下 三 大 关键 功能 的 中 央 节 点 : 
口 将 执行 代码 分 发 给 集群 中 不 同 的 worker 节 点 ; 
O 调度 任务 ， 将 任务 分 配给 Apache Storm 集 群 中 空闲 的 worker 节 点 ; 
O 监控 集群 的 错误 ， 并 采取 相应 的 措施 。 
Supervisor 守 护 进程 存在 于 集群 的 每 一 个 节点 中 ， 其 职责 如 下 : 


口 听从 Master Nimbus 守 护 进 程 的 指挥 ; 
口 基于 Nimbus 的 指挥 , 启动 和 停止 worker 进 程 ; 每 个 worker 进 程 执 行 topology 中 的 一 个 子 集 。 
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Nimbus 和 Supervisor 守 护 进 程 间 实 际 的 协调 工作 则 通过 Zookeeper 集 群 完成 。 


Zookeeper 是 一 个 开源 的 服务 ， 关 注 于 配置 管理 、 节 点 的 同步 ， 以 及 分 布 式 
系统 中 服务 的 命名 。 虽 然 最 初 它 属于 Hadoop 项 目 ， 但 现在 它 已 经 是 Apache 软 件 
基金 会 的 顶级 项 目 了 。 


下 图 显示 了 Apache Storm 集 群 的 一 个 高 层次 视图 : 


Supervisor 
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7.2.2 Apache Storm 的 计算 和 数据 模型 


计算 被 作为 topology 进 行 建 模 , 形成 一 张 计算 图 。 图 中 的 每 一 个 节点 包含 了 处 理 数据 的 逻辑 。 
这 些 计算 节点 之 间 的 连 线 则 表示 在 节点 间 存 在 着 数据 传输 。 


topology 被 定义 为 Thrift 结 构 。 在 第 $ 章 中 ， 我 们 看 到 Avro 的 模式 由 数据 定义 语言 来 定义 ， 比 
如 JSON， 这 使 得 它 不 用 去 感知 任何 程序 语言 。 同 样 ，Thrift 允 许 使 用 它 自 己 的 接口 定义 语言 来 定 
义 topology， 这 使 得 Apache Storm 是 语言 无 关 的 。 

Apache Storm 中 使 用 的 数据 抽象 是 流 。 流 是 一 组 有 序 且 无 限 的 tuple。Apache Storm 集 群 从 一 
条 流产 生男 一 条 流 。 举 个 例子 ， 如 果 一 辆 穿 过 州 际 公路 的 汽车 是 一 个 tuple 的 话 ， 在 前 面 我 们 比较 
批 处 理 和 流 式 处 理 的 例子 中 , 输入 的 流 则 包含 了 一 组 有 序 的 车 辆 tuple, 而 输出 的 流 则 是 一 组 按 颜 
色 对 车 辆 计数 的 tuple。 输 出 流 是 无 限 的 ， 但 tuple 每 个 小 时 都 会 从 集群 中 流出 来 。Storm 和 集群 将 输 
入 流转 换 成 输出 流 。 出 入 Apache Storm 的 流 可 以 有 很 多 。 


Storm 中 有 三 个 抽象 : spout 、bolt 及 topology， 具 体 解释 如 下 所 示 。 
O spout: spout 可 以 看 作 一 个 数据 适 配 需 , 它 将 源 数据 转 成 Storm 中 可 以 处 理 的 流 。spout 是 Storm 
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中 所 有 流 的 源头 。 比 如 ，spout 可 以 连接 Twitter API， 然 后 产生 一 条 tweet 的 流 ， 或 者 它 也 可 
以 连接 到 Kafka 队 列 ， 然 后 产生 一 条 系统 日 志 的 流 ， 这 中 间 的 每 一 条 日 志 是 一 个 tuple。 

O bolt: bolt 消 费 多 条 来 自 spout 或 是 其 他 bolt 的 流 ， 然 后 产生 新 的 数据 流 。Storm 和 集群 中 一 个 
单一 的 topology 可 能 需要 很 多 互相 连接 的 bolt 来 完成 所 需 的 转换 。bolt 可 以 完成 很 多 类 型 的 
转换 ， 比 如 过 滤 、 聚 合 、 流 连接 、 写 入 数据 存储 ， 或 是 简单 的 函数 执行 等 。 一 个 bolt 可 以 
订阅 一 组 来 自 spout 或 是 其 他 bolt 的 流 ， 而 这 种 订阅 在 topology 中 会 建立 连 线 。 

口 topology: topology 代 表 了 spout 和 bolt 所 组 成 的 网 络 ， 网 络 中 的 每 条 边 代表 一 个 bolt 订 阅 了 
其 他 spout 或 是 bolt 的 输出 流 。topology 是 一 种 任意 复杂 的 、 多 层级 的 流 计算 。 一 旦 部 署 ， 
topology 就 将 无 终止 地 运行 。 


下 图 说 明了 一 个 可 能 的 topology。Bolt A 订阅 了 Spout A， 而 Bolt C 订 阅 了 Bolt A。Bolt B 是 一 
个 订阅 了 两 条 流 的 例子 ， 一 条 来 自 Spout B， 男 一 条 则 来 自 Bolt A。 此 外 Bolt D 订 阅 了 来 自 Bolt C 
和 Bolt B 的 流 。 


7.2.3 Apache Storm 用 例 
像 Apache Storm 这 样 的 流 式 处 理 框 架 有 很 多 用 例 ， 比 较 实 用 的 如 下 所 示 。 


a 股市 中 的 算法 交易 : 算法 交易 需要 低 延 迟 的 决策 ， 而 这 些 决 策 基 于 股票 的 表现 、 市 场 、 

甚至 外 部 条 件 〈 比如 某 些 事件 ) 等 。Storm 可 以 并 行 地 做 出 决策 ， 并 传递 这 些 分 布 式 的 低 
延迟 结果 。 

口 社交 网 络 动态 的 分 析 : 像 Twitter 和 Facebook 这 样 的 社交 网 络 都 有 一 条 事件 更 新 的 连续 流 ， 
不 断 地 流入 系统 ,因此 很 多 分 析 都 需要 实时 地 完成 。 比 如 , 来 自 Twitter 动态 的 热门 主题 就 

是 一 个 低 延 迟 的 应 用 。 热 门 主题 变 得 很 快 ， 所 以 一 旦 发 生 就 需要 被 报导 。 

口 智能 广告 : 广告 是 互联 网 公司 和 搜索 引擎 主要 的 收入 来 源 。 如 果 广 告 跟 用 户 的 浏览 内 容 
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相关 , 则 会 带 来 更 高 的 点 击 率 。 智 能 选择 和 展示 广告 则 是 另 一 种 能 令 像 Apache Storm 这 样 
的 框架 发 挥 更 多 价值 的 应 用 。 智 能 广告 需要 实时 推 其 用户 的 意图 。 

口 基于 位 置 的 应 用 : 用 户 的 位 置 可 以 用 于 有 针对 性 地 投放 广告 、 促 销 以 及 服务 。 得 到 目标 
用 户 所 处 的 大 概 位 置 就 是 一 个 低 延迟 的 应 用 。Storm 可 以 收集 位 置 数 据 ， 然 后 实时 地 瞄准 


目标 。 


口 基于 传感器 网 络 的 应 用 : 制造 业 、 灾 害 监控 、 安 全 等 领域 都 广泛 使 用 传感器 ， 因 此 有 必 
要 对 异常 事件 实时 地 做 出 反应 。 那 些 可 以 感知 灾难 ( 比如 地 震 ) 的 传 感 顺 应 该 具备 实时 
通知 政府 机 构 的 能 力 ， 这 样 有 助 于 及 时 采取 玻 散 和 安全 措施 ， 从 而 挽救 生命 。 


7.24 Apache Storm 的 开发 


现在 ， 让 我 们 用 Java 开 发 一 个 Apache Storm 的 topology。 让 我 们 看 一 下 worldcitiespop.txt 文 件 ， 
这 是 一 个 包含 城市 信息 的 CSV 文 件 ， 文 件 中 包含 了 每 个 城市 对 应 的 国家 编号 、 人 口 及 纬度 /经 度 
信息 。 不 过 这 可 能 不 是 一 个 理想 的 流 式 处 理 的 应 用 程序 ， 因 为 这 条 流 是 有 限 的 ， 它 演示 了 流 的 过 


滤 和 分 组 。 


(1) 让 我 们 开发 一 个 简单 的 spout， 它 从 worldcitiespop.txt CSV 文 件 中 读 取 每 一 行 数据 ,然后 将 
记录 作为 一 条 tuple 的 流 发 送出 去 。 所 有 的 spout 都 实现 了 IRichspout 接 口 。BaseRichspout 抽 
象 类 也 实现 了 这 个 接口 。 如 下 面 的 代码 段 , 我们 将 扩展 这 个 类 ， 然 后 重 写 抽象 方法 。 有 三 个 主要 


的 方法 需要 被 重 写 。 


m open: 这 个 方法 用 于 初始 化 和 启动 spout。 在 这 个 例子 中 ， 我们 打开 文件 ， 然 后 保存 一 
个 OutputCollector 类 型 的 句柄 。 这 个 spoutoutputcollector 对 象 用 于 将 tuple 发 送 到 输 


出 流 去 。Spoutoutputcollector 对 象 的 主要 特征 是 它 可 以 用 ID 给 消息 打上 标记 ， 标 
记 消 息 是 发 送 成 功 还 是 失败 。 在 这 个 方法 中 配置 信息 同样 有 效 。 
m nextTuple: 这 个 方法 被 反复 调用 ， 要 求 spout 发 送 tnuple。 这 是 一 个 非 阻塞 调用 ， 也 就 
是 说 ， 如 果 没 有 tuple 需 要 被 发 送 ， 调 用 就 会 返回 。 在 下 面 的 例子 中 ， 我 们 读 取 文件 中 


的 一 行 数 据 ， 然 后 将 它 发 送 给 spoutoutputCcollector 对 象 。 然 后 这 个 tuple 被 保存 到 
Values 对 象 中 。 
m declareOutputFields: 这 个 方法 用 于 指定 消息 的 模式 和 ID。 在 下 面 的 例子 中 , 我 们 


package Mas 


import back 
import back 
import back 
import back 
import back 
import back 


通过 Fieldqs 对 象 指明 tuple 只 有 一 个 字段 : city。 


teringStorm; 


type. 
type. 
type. 
type. 
type. 
type. 


storm 


storm 


.Spout.SpoutOutputCollector; 
storm. 
storm. 
storm. 
storm. 


task.TopologyContext; 
topology.OutputFieldsDeclarer; 
topology.base.BaseRichSpout; 
tuple.Fields; 


.tuple.Values; 
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import java.io.BufferedReader; 
import java.io.FileReader; 
import java.util.Map; 


public class ReadCitySpout extends BaseRichSpout ( 


private SpoutOutputCollector spoutOutputCollector; 
private BufferedReader cityFileReader; 


QGOverride 
public void open(Map map, TopologyContext 
topologyContext, SpoutOutputCollector 
spoutOutputCollector) { 
this.spoutOutputCollector - spoutOutputCollector; 


tryt 
cityFileReader - new BufferedReader (new 
FileReader((String)map.get("city.file"))); 
} 
catch(Exception ex)( 
ex.printStackTrace(); 


QGOverride 
public void nextTuple() ( 


String city - null; 
if(cityFileReader !- null)( 


try { 
city - cityFileReader.readLine(); 
} 
catch(Exception ex)( 
ex.printStackTrace(); 


if(city != null)( 
SspoutOutputCollector.emit(new Values(city)); 


QGOverride 
public void declareOutputFields (OutputFieldsDeclarer 
outputFieldsDeclarer) ( 
outputFieldsDeclarer.declare(new Fields("city")); 
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(2) 现在 ， 既 然 有 了 一 条 城市 的 tuple 流 ， 我 们 就 想 要 将 包含 有 效 人 口 数 的 tuple 过 滤 出 来 。 如 
果 我 们 仔细 观察 worldcitiespop.txt 这 个 文件 就 会 发 现 ， 很 多 城市 没有 人 口 数 。 我 们 将 使 用 bolt 将 这 
些 记录 过 滤 掉 。 下 面 代 码 段 的 前 半 部 分 就 演示 了 这 种 过 波 功 能 。 


所 有 的 bolt 都 需要 实现 IRichBolt 接 口 。BaseRichBolt 抽 象 类 被 扩展 ， 此 外 这 里 也 有 三 个 
主要 的 方法 需要 被 重 写 ， 具体 如 下 。 


wm prepare: 这 个 方法 用 于 初始 化 bolt， 并 使 它 做 好 接受 流 的 准备 。 我 们 保存 了 
OutputCollector 对 象 ， 因 此 我 们 可 以 将 数据 写 人 输出 流 。 

m execute: 这 个 方法 重 写 了 tuple 将 要 进行 的 所 有 处 理 逻 辑 。 在 前 半 部 分 的 代码 中 ， 我 们 
从 tuple 中 抽取 了 city 字 段 ， 然 后 将 它 按 喜 号 分 割 。 我 们 检查 记录 中 的 人 口 字 段 。 如 果 
这 个 值 为 空 ， 或 是 抛 出 了 NumberFormatException， 那 么 我 们 就 丢弃 这 个 tuple， 而 
不 发 送 任何 东西 。 

m declareOutputFields: 这 个 方法 同样 用 于 指定 输出 tuple 的 模式 。 这 次 , 我们 的 tuple 
有 两 个 字段 : countrycode 和 city。 前 者 包含 了 国家 编号 ， 后 者 包含 了 整 条 城市 记录 


Zx 
的 内 容 。 
package MasteringStorm; 
import backtype.storm.task.OutputCollector; 
import backtype.storm.task.TopologyContext; 
import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Fields; 
import backtype.storm.tuple.Tuple; 
import backtype.storm.tuple.Values; 
import java.util.Map; 


public class FilterCityBolt extends BaseRichBolt ( 
OutputCollector collector; 
QGOverride 
public void prepare(Map map, TopologyContext 
topologyContext, OutputCollector outputCollector) { 
this.collector - outputCollector; 


} 


@Override 
public void execute (Tuple tuple) { 


String city = tuple.getString(0); 
String[l tokens = city.;spliti";"); 


// 过 滤 有 人 口 数 的 城市 
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if(tokens !- null && tokens.length >= 7 && 
tokens[4] !- null && tokens[4].length() > O)( 
try ( 


Long population - 
Long.parseLong(tokens[4]); 
j 
catch(NumberFormatException ex)í 
city - null; 


Tf(crty "s null) 
collector.emit(new Values(tokens[0],city)); 


GOverride 
public void declareOutputFields(OutputFieldsDeclarer 
outputFieldsDeclarer) ( 
outputFieldsDeclarer.declare (new 
Fields("countryCode","city")); 


} 


(3) 我 们 下 一 个 bolt 是 对 所 有 城市 人 口 求 和 , 得 到 国家 的 人 口 数 。 下 面 的 代码 段 演示 了 这 一 点 。 
和 前 面 一 样 ， 我 们 扩展 了 BaseRichBolt 抽 象 类 。 在 prepare 方 法 中 ,我 们 初始 化 一 个 HashMap 
用 于 保存 每 个 国家 人 口 数 的 临时 值 。 在 sxecute 方 法 中 更 新 这 些 临时 的 人 口 数 , 最 后 将 国家 编号 
和 人 口 数 作为 一 个 tuple， 发 送出 去 : 


T 


package MasteringStorm; 

import backtype.storm.task.OutputCollector; 

import backtype.storm.task.TopologyContext; 

import backtype.storm.topology.OutputFieldsDeclarer; 
import backtype.storm.topology.base.BaseRichBolt; 
import backtype.storm.tuple.Fields; 

import backtype.storm.tuple.Tuple; 

import backtype.storm.tuple.Values; 

import java.util.HashMap; 

import java.util.Map; 


public class SumPopulationForCountryBolt extends 
BaseRichBolt ( 


private HashMap«String, Long» countryCodePopulationMap; 
private OutputCollector outputCollector; 


GOverride 
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public void prepare(Map map, TopologyContext 
topologyContext, OutputCollector outputCollector) { 


this.outputCollector - outputCollector; 
this.countryCodePopulationMap = new HashMap<>(); 


) 


GOverride 
public void execute(Tuple tuple) ( 


String countryCode - tuple.getString(0); 
String city - tuple.getString(1); 

String[] tokens = city.split(","); 

Long population = Long.parseLong(tokens[4]); 


if(countryCodePopulationMap.containsKey (countryCode)) { 
Long savedPopulation - 
countryCodePopulationMap.get (tokens[0]); 
population += savedPopulation; 
countryCodePopulationMap.remove (countryCode); 


) 


countryCodePopulationMap.put (countryCode, 
population); 

outputCollector.emit(new Values (countryCode, 
population)); 


) 


GOverride 
public void declareOutputFields(OutputFieldsDeclarer 
outputFieldsDeclarer) ( 
outputFieldsDeclarer.declare (new 
Fields("countryCode", "population")); 


} 


(4) 现在 , 我 们 有 一 个 发 送 tuple 的 spout, 一 个 过 滤 无 效 tuple 的 bolt, 还 有 一 个 对 人 口 数 求 和 的 
聚合 bolt， 让 我 们 来 创建 一 个 topology。 正 如 我 们 之 前 看 到 的 ， 创 建 topology 就 是 建立 spout 和 bolt 
之 间 的 连 线 。 下 面 的 代码 演示 了 如 何 构造 和 提交 一 个 由 spout 和 bolt 组 成 的 topology。 


使 用 TopologyBuilder 对 象 来 创建 topoloty。 它 用 set spout 和 setBolt 这 两 种 方法 来 设置 
topology 中 的 spout 和 bolt。 也 可 以 指定 spout 和 bolt 的 名 字 。setBolt 方 法 返回 一 个 Topology- 
Builder.BoltGetter 对 象 。 这 个 对 象 允许 不 同类 型 的 分 组 。 分 组 也 可 以 被 认为 就 是 流 分 区 指令 。 

在 代码 段 的 前 半 部 分 ， 我 们 使 用 shuffleGrouping 方 法 来 连接 FiltercityBolt 和 
ReadCitySpouto 然后 , 我 们 使 用 fieldqascrouping 方 法 来 连接 sumPopulationForCcountry- 
Bolt 和 FiltercityBolt。 这 是 因为 我 们 想 要 按 国家 来 聚合 人 口 数 ， 并 且 想 把 相同 国家 的 tuple 
放 到 同一 个 bolt 任 务 中 去 。 
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使 用 stormsubmitter 


定 任 何 额外 的 配置 值 。 在 这 个 例子 中 ,我 们 设置 了 调试 ， 以 及 我 们 从 命令 行 得 到 的 文件 名 。 


下 面 是 Apache Storm 自 带 的 七 种 流 分 区 模式 。 


口 Shuffle grouping: 每 个 tuple 都 会 被 随机 分 配给 Bolt 任 务 。 这 种 模式 会 努力 
保证 每 个 Bolt 任 务 可 以 分 配 到 相同 数量 的 tuple。 


辅助 类 将 topology 提 交 到 Apache Storm 和 集群。 我 们 使 用 config 对 象 来 


标 时 ， 这 是 非常 有 用 的 。 


tuple 该 发 送 到 哪个 Bolt。 


回 退 到 Shuffle grouping 模 式 。 


package MasteringStorm; 


import 
import 
import 
import 


public 


backtype.storm.Config; 
backtype.storm.StormSubmitter; 


backtype.storm.topology.TopologyBuilder; 


backtype.storm.tuple.Fields; 


class MasteringStormTopology { 


public static void main(String[] args)( 


Config config - new Config(); 
config.setDebug(true); 


if(args !- null)( 
System.out.println(args.length); 
j 


System.out.println(args[0]); 
config.put("city.file", args[0]); 


TopologyBuilder topologyBuilder - new 
TopologyBuilder(); 


topologyBuilder.setSpout("cities", new 


Q Fields grouping: 基于 某 个 特定 的 字段 值 , tuple 将 被 发 送 到 
任务 。 在 本 节 使 用 的 代码 中 ， ryCode 字 段 进 
有 相同 国家 编号 的 tuple 能 被 发 送 到 同 

口 All grouping: 每 个 生成 的 人 

口 Global grouping: 整 条 流 都 被 发 送 到 


口 None grouping: 目前 这 种 模式 默认 为 Shuffle grouping。 将 来 ， 
制 在 Bolt 或 Spout 的 同一 个 线程 中 执行 。 
口 Direct grouping: 这 种 情况 下 ， 由 产生 tuple 的 Bolt 或 Spout 自 己 来 决定 这 个 


某 个 单一 的 Bolt 
行 分 组 ， 保 证 


后 发 送 到 所 有 的 Bolt 任 务 。 
2 当 计 算 全 局 指 


它 会 规定 强 


口 Local or Shuffle grouping: 如 果 接 add 的 nnd : mus 中 存 


在 着 另外 一 些 类 似 生 产 者 的 任务 ， 那 么 内 洗 牌 ， 否 则 ， 就 
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ReadCitySpout(), 3); 
topologyBuilder.setBolt("filter", new 
FilterCityBolt(), 3).shuffleGrouping("cities"); 


topologyBuilder.setBolt("group", new 
SumPopulationForCountryBolt(), 
3).fieldsGrouping("filter", new 
Fields("countryCode")); 


try ( 
StormSubmitter.submitTopology("test-filtering-storm",config, 


topologyBuilder.createTopology()); 


} 
catch(Exception ex)( 
ex.printStackTrace(); 


) 


} 
使 用 类 似 下 面 的 命令 可 以 将 topology 提 交 到 Storm 集 群 : 


Storm jar MasteringStormOnYarn-1.0-SNAPSHOT-jar-with-dependencies.jar 
MasteringStorm.MasteringStormTopology worldcitiespop.txt 


如 果 你 使 用 Maven 来 创建 topology JAR 文 件 ， 在 指定 Apache Storm 依 赖 时 请 
使 用 <scope>provided</scope> 标 签 。 如 果 没 有 使 用 这 个 标签 ，Apache Storm 
JAR 文 件 和 default.yaml 文 件 会 被 打包 到 JAR 文 件 。 这 样 会 导致 多 个 default.yaml 文 
件 ， 并 产生 一 个 运行 时 的 错误 。 下 面 的 代码 显示 了 pom.xml 中 的 依赖 部 分 。 


41 
~, 
<dependencies> 
<dependency> 


<groupId>storm</groupId> 
<artifactId>storm-core</artifactId> 
<version>0.9.0</version> 
«sScope»provided«/scope» 
</dependency> 
</dependencies> 


7.2.5 Apache Storm 0.9.1 
Apache Storm 0.9.1 发 布 于 2014 年 2 月 。 跟 Storm 的 老 版 本 相 比 , 它 有 很 大 的 改进 。Apache Storm 
的 最 新 发 布 可 以 在 http://storm.apache.org/downloads.html 中 找到 。 一 些 主要 的 改进 点 如 下 所 示 。 


O 基于 Netty 的 传输 : 在 此 之 前 ，Apache Storm 使 用 0MQ 作 为 传输 。0MQ 需 要 在 群集 中 安装 
自身 的 二 进 制 文件 ， 这 点 很 乏味 。Netty 是 基于 Java 的 传输 ， 能 保证 集群 中 跨 节 点 间 的 可 
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移植 性 。 而 且 它 还 具有 很 优越 的 性 能 特点 ， 可 以 提供 几乎 两 倍 多 的 消息 吞吐 量 。 

口 Windows 的 支持 : Apache Storm 现 在 可 以 运行 在 Windows 平 台 上 。 这 对 于 那些 运行 在 

Windows 上 的 大 规模 集群 来 说 ， 具 有 重大 意义 。 

a Apache 软 件 基金 会 : Apache Storm 是 Apache 软 件 基金 会 的 孵化 项 目 。 这 将 带 来 更 高 的 社 

区 影响 力 ， 同 时 也 可 以 为 软件 提供 发 布 和 授权 结构 。 

口 Maven 的 集成 : Apache Storm 主 要 是 用 一 种 基于 JVM 的 Lisp 编 程 语 言 Clojure 编 写 而 成 。 
Leiningen 曾 经 是 一 个 很 流行 的 Clojure 构 建 工 具 ，Storm 就 是 基于 Leiningen 创 建 的 。 然 而 ， 
随 着 Apache Storm 成 为 Apache 软 件 基 金 会 的 孵化 项 目 , 构建 工具 的 选择 就 成 为 发 布 管理 的 
一 项 重要 特征 。Apache Storm 现 在 使 用 Maven 构 建 系统 ， 这 使 得 它 可 以 更 快 更 频繁 地 发 布 
新 版 本 。 


7.3 基于 YARN 的 Storm 


在 第 6 章 中 ， 我 们 创建 了 一 个 执行 分 布 式 shell 命 令 的 YARN 应 用 。Storm 就 是 这 样 一 种 应 用 ， 
由 雅虎 带 入 到 YARN。 现 在 ， 任 何 运 行 YARN 的 Hadoop 集 群 都 可 以 为 那些 低 延 迟 、 实 时 的 应 用 程 
序 执行 流 式 处 理 了 。 一 旦 部 署 完毕 ，Application Master 和 Client 程 序 就 可 以 执行 Storm 了 。GitHub 
上 的 开源 地 址 是 https://github.com/yahoo/storm-yarn。 


7.3.1 在 YARN 上 安装 Apache Storm 
现在 可 以 直接 从 GitHub 上 安装 Apache Storm-on-YARN。 本 节 假 设 使 用 的 是 Hadoop 2.2.0 集 群 。 
前 提 条 件 


下 面 的 前 提 条 件 对 于 安装 Storm-on-YARN 来 说 是 必须 的 。 


口 Java 7 
O Maven: 需要 在 网 关机 器 上 安装 Maven ， 用 于 编译 和 部 署 Storm-on-YARN 的 Application 
Master 和 Client。 


W wget http://mirror.symnds.com/software/Apache/maven/maven-3/3.1.1/ 
binaries/apache-maven-3.1.1-bin.tar.gz 

m tar -zxvf apache-maven-3.1.1-bin.tar.gz 

m mkdir -p /usr/lib/maven 

W mv apache-maven-3.1.1 /usr/lib/maven 

m vi —-/.bash profile and add SPATH-$PATH:/usr/lib/maven/bin 


7.3.2 ”安装 过 程 
执行 以 下 的 安装 步骤 。 
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(1) 可 以 从 GitHub 上 下 载 Storm-YARN 存 储 库 的 副本 。 如 果 你 已 经 安装 了 Git， 就 可 以 在 本 地 


克隆 存储 库 : 


wget https://github.com/yahoo/storm-yarn/archive/master.zip 


(2) 解压 下 载 的 master.zip : 


unzip master.zip 


(3) 现在 ， 需 要 修改 Maven 的 配置 文件 pom.xml， 指 定 我 们 要 使 用 的 Hadoop 版 本 。 我 们 正 使 用 
2.2.0， 所 以 在 nadoop .version 这 个 XML 标签 里 写 明 . 


«properties» 
«storm.version»0.9.0-wip21«/storm.version» 
«hadoop.version»2.2.0«/hadoop.version» 


«1!--hadoop.version»2.1.0.2.0.5.0-67«/hadoop.version--» 


«/properties» 


(4) Storm-YARN 项 目的 二 进 制 文件 在 下 载 的 工程 文件 的 fib 文 件 夹 中 : 


mkdir -/working-dir 


(5) XE A storm-yarn-master H 5x : 


cd storm-yarn-master 
cp lib/storm.zip -/working-dir 


(6) 将 storm.zip 文 件 放 到 HDFS 上 ， 这 样 它 就 可 以 被 部 署 到 Hadoop 集 群 中 的 所 有 节点 。 现 在 ， 
在 Storm-YARN 的 AM 中 将 这 个 路 径 硬 编码 为 /1ib/storm/<storm-version>: 


hadoop 
hadoop 
hadoop 
hadoop 


fs 
fs 
fs 
fs 


-mkdir /lib 

-mkdir /lib/storm 

-mkdir /lib/storm/0.9.0-wip21 

-put storm.zip /lib/storm/0.9.0-wip21 


(7) 在 工作 目录 中 将 storm.zip 文 件 解压 ， 然 后 添加 到 路 径 中 : 


unzip storm.zip 
vi -/.bash profile 


(8) 将 storm-yarn-master 和 storm 的 bin 路 径 添加 到 PATH 环境 变量 : 


export STORM HOME-"«your path»/working-dir/storm-0.9.0-wip21" 


export STORM YARN HOME-"«your path»/storm-yarn-master" 
export PATH-$PATH:$STORM HOME/bin:$STORM YARN HOME/bin 


(9) 进入 storm-yarn-master 目 录 ， 然 后 执行 Maven 打 包 命令 : 


cd storm-yarn-master 
mvn package 


(10) Maven 打 包 命 令 将 创建 Application Master 和 Client 程 序 。 此 外 ， 


它 会 运行 测试 来 验证 一 切 
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是 否 顺利 。 强 烈 推 荐 运行 测试 以 便 尽早 发 现任 何 问题 。 你 也 可 以 使 用 下 面 的 命令 来 跳 过 测试 
mvn package -DskipTests 


(11) 正如 我 们 在 7.2.1 节 中 所 看 到 Zookeeper 被 用 来 在 Nimbus 和 Supervisor 守 护 进 程 之 间 协 
调 通 信 。 所 以 在 启动 Storm 之 前 ， 先 安装 Zookeeper 集 群 是 很 重要 的 : 


wget 
http://www.gtlib.gatech.edu/pub/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.t 
ar.gz 


(12) 解压 下 载 的 包 ， 然 后 将 它 放 到 合适 的 地 方 : 


tar zxvf zookeeper-3.4.6.tar.gz 


(13) Zookeeper 将 所 有 的 配置 信息 都 保存 在 磁盘 上 。 进 入 Zookeeper 安 装 目录 的 conf 文 件 夹 中 ， 
按照 提供 给 你 的 模板 ， 创 建 一 个 zoo.cfg 文 件 ， 然 后 检查 中 间 的 设置 。 最 重要 的 是 ，dqataDir 设 置 
项 中 指定 的 目录 一 定 要 存在 : 


cd conf 
cp zoo sample.cfg zoo.cfg 
vi zoo.cfg 


下 面 是 我 机 右上 的 Zookeeper 的 配置 : 


# 每 个 cick 的 毫秒 数 
tickTime-2000 

# 最 初 同步 阶段 花费 的 上 ick 数 
initLimit-10 

# 发 送 请 求 和 得 到 答复 间 的 tick 数 
syncLimit=5 

# 保 存 snapshot 的 目录 

# 不 要 存储 在 /tmp， 这 里 的 /tmp 只 是 个 例子 
dataDir=/data/zookeeper 

# 客户 菇 端口 
clientPort=2181 


进入 bin 文 件 夹 ， 执 行 下 面 的 命令 来 启动 Zookeeper: 


cd bin 
./zkServer.sh start 


一 且 Zookeeper 启 动 ， 我 们 就 可 以 通过 下 面 的 命令 将 Apache Storm 应 用 提交 到 我 们 的 Hadoop 
YARN 集 群 。 


storm-yarn launch 
这 可 能 需要 几 分 钟 时 间 。 执 行 jps 命 令 来 检查 所 有 的 必要 服务 是 否 都 已 经 在 运行 : 
jps 


下 面 的 截屏 显示 了 所 有 需要 运行 的 必要 服务 : 
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QuorumPeerMain 服 务 是 就 是 Zookeeper 的 服务 。 由 于 我 的 集群 就 运行 在 一 个 节点 上 ， 所 以 我 
们 只 看 到 一 个 supervisor。 另 外 也 可 以 看 到 Nimbus 守 护 进 程 。MasterServer 是 Storm 的 Application 
Master， 它 是 生成 Nimbus 的 容器 。 另 外 还 有 很 多 worker 进 程 ， ne 其 5 uude Storm 上 的 
topology。 我 们 马上 就 会 看 到 如 何 运 行 一 个 topology。 现 在 ,在 你 的 机 右上 可 能 还 看 不 到 这 些 worker 
进程 。 


你 可 以 通过 下 面 的 命令 来 查看 YARN 上 应 用 的 ID: 


yarn application -list 


下 面 的 截屏 显示 的 是 执行 1ist 命 令 后 ，YARN RM 给 出 的 输出 。 在 本 例 中 ，Storm 应 用 的 ID 
是 application 1404566721714. 0004: 


Queue State Final-State 


default RUNNING UNDEFINED 


你 也 可 以 连接 RM 的 页 面 来 查看 应 用 的 ID ， 如 下 面 的 截屏 所 示 : 


e CŒ D localhost:8088/cluster an 9 三 
P Logged in as: dr.who 
QE All Applications 
* Cluster Cluster Metrics 
About Apps Apps Apps Containers ^ Memory Memory Memory Active Decommissioned ^ Lost Unhealthy Rebooted 
Noves ac Pendng ^ Running Completed Running Used Toi Reseved Nodes Nodes Nodes Nodes Nodes 
Applications 1 0 1 0 2 4GB 4GB oB 1 o 0 0 n 
NEW 
J Show :0 : entes Search: 
SUBMITTED 
ACCEPTED ID * User Name Application Oe StadTime FinishTime Stale 5 FinalStatus Progress Tracking Ui 
; 5 Type 
apgücation 1405748105360 0001 sandeepkaranth Stom- YARN deut Sat, 19 Jul NA RUNNING UNDEFINED ApplicationMaster 
FINISHING h 2018 
Hi 
Yam 053522 
FAILED GMT 
Scheduler Showing 1 to 1 of 1 entries. 
» Tools 


Apache Storm 的 配置 可 以 保存 在 用 户 home 目 录 下 的 ,storm 目录 中 。 这 样 一 来 ， 每 当 我 们 提交 
topology 到 集群 时 ，Storm 都 会 自动 从 这 个 路 径 加 载 配置 : 
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Storm-yarn getStormConfig -appId «appId from YARN» -output -/.storm/storm.yaml 


storm.yaml 文 件 中 记录 了 Apache Storm 集 群 的 配置 。 一 定 要 检查 它 的 内 容 是 否 正确 。 比 如 ， 


nimbus. 


以 及 其 他 属性 都 可 以 在 这 个 配置 文件 里 进行 设置 。 


host 属 性 显示 了 正在 运行 Nimbus 守 护 进 程 的 机 器 。 所 有 的 Zookeeper 配 置 、 超 时 设置 ， 


现在 Apache Storm 和 集群 启动 并 运行 了 ， 是 时 候 提 交 一 些 topology 进 行 测试 了 。Storm YARNH 
带 一 些 测试 用 的 topology , IE ùN storm. starter .WwordCountTopology fI storm. starter. 


ExclamationTopology。 可 以 通过 运行 这 些 测试 用 的 topology 来 检查 集群 部 署 是 否 正确 。 


使 用 下 面 的 命令 来 运行 topology: 


storm jar storm-starter-0.0.1-SNAPSHOT.jar 
storm.starter.WordCountTopology 


下 面 的 命令 也 可 以 : 


storm jar storm-starter-0.0.1-SNAPSHOT.jar 
Sstorm.starter.ExclamationTopology 


Apache Storm 有 自 带 监控 topology 的 页 面 。 这 个 页 面 的 访问 路 径 在 网 关机 器 的 7070 端 口 。 下 面 
的 截屏 显示 的 是 一 个 运行 着 上 述 两 个 测试 topology 的 Storm 集 群 。 


在 每 个 节点 上 执行 jps 命 令 可 以 查看 该 节点 上 是 否 运 行 着 worker 进 程 。 


€ > Œ |D localhost:7070 安 ] oz 
Storm UI 
Cluster Summary 

Version Nimbus uptime Supervisors Used slots Free slots Total slots Executors Tasks 

0.9.0-wip21 10m 23s 1 4 0 4 46 46 
Topology summary 

Name ld Status ~ Uptime Num workers Num executors Num tasks 

WordCountTopology WordCountTopology-1-1404577224 ACTIVE Sm 43s 3 28 28 

ExclamationTopology ExclamationTopology-2-1404577440 ACTIVE 7s 1 18 18 
Supervisor summary 

ld a Host Uptime Slots Used slots 

17a10ec2-27c9-476e-b2d2-591b3b3e9c37 192.168.1.38 10m 18s 4 4 
INimbus Configuration 

Key a Value 

dev.zookeeper.path Amp/dev-storm-zookeeper 

drpc.childopts -Xmx768m 

drpc.invocations.port 3773 

drpc.port 3772 

drpc.queue.size 128 


点 击 某 个 topology 可 以 查看 它 的 详细 信息 。 下 面 的 截屏 显 i 


Exclama 


tionTopology 的 详细 信息 ， 给 出 了 正在 运行 的 bolt 和 spout 的 详细 数据 。 也 可 以 对 这 
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topology 执 行 一 些 动作 。 目 前 允许 对 这 个 topology 进 行 activate/deactivate 、kill 和 rebalance 动 作 。 


€ > Œ Diocalhosc70701topology/ExclamationTopology-2-1404577440 vag 
Storm UI 
Topology summary 

Name ld Status Uptime Num workers Num executors Num tasks 

ExclamationTopology ExclamationTopology-2-1404577440 ACTVE 1d 12h 46m 15s. 3 18 18 
Topology actions 


Activate [ Deactivate | | Rebalance | | Kill 


Topology stats 


Window ~  Emitted Transferred Complete latency (ms) Ackod Failod 
10m 0s 11540 7660 0.000 0 0 
3h om s. 11540 7680 0.000 0 o 
1d 0h 0m 0s. 11540 7680 06,000 0 0 
Ali time. 11540 76880 0.000 [] o 


|Spouts (All time) 
id a  Executors Tasks. Emitted Transferred Complete latency (ms) Ackod Failed Last error 


word 10 10 3820 5820 0.000 0 o 


Bolts (All time) 


ld a Executors Tasks Emitted Transferred Capacity (last 10m) Execute latency (ms) Executed 4 Process latency (ms) Acked Failed Last error. 
eiim 3 3 3880 3880 0.008 0:206 3840 0.260 3840 o 
exdam2 2 2 3860 0 0.006 0.190 3800 0115 3840 0 


下 面 的 截屏 显示 的 是 BxclamationTopology 的 日 志 快 照 。 这 些 日 志 由 运行 toppology 的 容器 
所 产生 。 E mo oim 1 字符 串 。 本 例 中 的 spout， 
从 单词 列表 中 随机 选择 一 个 单词 发 送 给 bolt。exclaiml bolt 给 这 个 单词 加 上 三 个 感叹 号 ， 然 后 
将 它 转发 到 exclaim2 bolt， 接 着 exclaim2 bolt 又 给 它 加 上 三 DE 


从 日 志 中 看 到 ，exclaim1 的 输出 总 是 有 三 个 感叹 号 ， 而 exclaim2 的 输出 有 六 个 感叹 号 。 
spout 随 机 发 送 的 单词 来 自 spout 中 定义 的 单词 集合 。 


€ SC D 192.168.1.38:8042/node/containerlogs/container_1404566721714_0005_01_000002/sandeepkaranth/worker-6703.lo9.1/?start=-4096 2893 


Logs for T 
container 1404566721714 0005 01 000002 


-ResourceManager Showing 4096 bytes. Csck here for full log 


ecutor (INFO) Processing received message source: exclaiml:4, stream: default, id: (), [bertelsiii] 


RM Home task [INFO] Emitting: exclaimà default |bertelsiiiiii] 
2014-01-07 task [INFO] Emitting: word default [jackson] 
task [INFO] Emitting: word default [mike 

* NodeManager task Imo! minm word default [rn 

» Tools executor (INFO) Processing received message sourco: exclaimi:5, stream: default, id: (), |jackmoniii] 
2014-07-07 12:15:28 b.s.d.task [INTO] Puitting: exclaim? default [jacksoniliili] 
2014-07-07 12:15:28 b. executor [INFO] Processing received message source: exclaimi:6, stream: default, id: (), [mikelli] 
2014-07-07 task [INFO] Emitting: exclaim? default [mikeillill] 
2014-07-07 executor [INFO] Processing received message source: exclaimli6, stream: default, id: (), [jacksoniil] 


task [INFO] Emitting: exclaimd default [jacksoallllli] 

executor (INFO) Processing received message source: wordi9, stream: default, id: (), [jackson] 

task [INFO] Emitting: exclaimi default [jacksoniii] 

executor INFO] Processing received message source: exclaimli4, stream: default, idi (), [jacksoniii] 
sk [INFO] Exitting: exclaim? default [jacksonlliil!] 

executor [INFO] Processing received message source: exclaimli5, stream: default, id: (), [jacksoni!!] 


2014-07-07 
2014-07-07 
2014-07-07 
2014-07-07 12:15:28 
12:15:29 
12:15:29 
12:15:29 
12:15:29 
2014-01-07 12:15:29 
2014-07-07 12:15:29 
12:15:29 
12115129 
12:15:28 
12:15:25 


executor [INFO] Processing received message sourco: wordilj, stream: default, id: (), (nathan) 
task [INFO] Emitting: exclaím] default [nathanii!] 

executor [INFO] Processing received message source: vord:10, stream: default, id: (), [bertels] 
task [INFO] Emitting: exclaim] default [bertels!!i] 

executor [INFO] Processing received message sou! 
task [INFO] Emitting: exclaim? default [bertela! 
ing received message source 
molaim? default [mixeliiiil] 
ing received message source: exclalmiié, stream: default, id: (), [bertelalii] 
task [INFO] Emitting: exclaim? default [bertelalllill] 

executor [INFO] Processing received message source: wordi$, stream: default, id: (), [jackson] 

task [INFO] Emitting: exclaiml default [jacksoni il] 

executor [INFO] Processing received message source: exclaimlié, stream: default, id: (), [bertelsiii] 
task [INFO] Emitting: exclaimd default [bartelsi 1 

executor [INFO] Processing received message source: exclaimli4, stream: default, idi (), [jacksonili] 


xclaimi:4, stream: default, id: (), [bertelat!i] 


1 
xclaimi:$, stream: default, id: (), [mikel] 


2014-07-07 
2014-07-07 12:15:29 
2014-07-07 12:15:29 
2014-07-07 


PvuvEETTUTUUUPUSUCTUSCTU 


2014-07-07 12:15:29 b.s.d.ta&k [INFO] Pmitting: exclaimZ default [jackson!lilli] 
2014-07-07 12:15:29 b.s.d.executor [INTO] Processing received message source: exclaimi:$, stream: default, id: (), [jacksoni!] 
2014-07-07 12:15129 b.8.d.task [INFO] Emitting: exclaim? default [jackson!iilil] 

2014-07-07 12115129 b.s.d.task [INFO] Emitting: word default [jackson] 

2014-07-07 12:15:29 b.s.d.tesk [INFO] Emitting: word default [nathan] 

2014-07-07 12115129 b.s.d.task [INFO] Emitting: word default [mike] 
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Hadoop 中 的 低 延 时 处 理 


不 通过 页 面 ， 我 们 也 可 以 使 用 Apache Storm 命 令 去 终止 一 个 topology。 终 止 过 程 将 分 为 以 下 
几 步 。 首 先 ，topology 中 的 spout 将 会 停 用 。 然 后 ，Apache Storm 等 到 超时 后 ， 就 终止 worker 并 清 
理 所 有 状态 。 在 此 期 间 ，worker 可 以 将 那些 它们 已 经 收 到 的 tuple 处 理 完毕 。 可 以 使 用 -w 参 数 指定 
这 个 超时 的 值 : 


storm kill «topology-name» [-w wait for seconds] 


同样 ，Apache Storm 提 供 了 其 他 的 命令 来 管理 topology。 我 们 之 前 就 曾 用 jar 命 令 在 一 个 集群 
中 实例 化 topology。 这 里 有 一 点 很 重要 ， 它 会 自动 从 home 路 径 下 的 .storm 目 录 中 加 载 Storm 的 配置 。 


使 用 storm-YARN shutdown 命 令 可 以 停止 集群 中 的 整个 Apache Storm 应 用 。 使 用 方法 如 下 : 


storm-yarn shutdown -appId «application id» 


不 论 是 Apche Storm 还 是 Storm-YARN 都 有 很 多 其 他 命令 。Apache Storm 的 命令 管理 已 经 部 署 
的 Storm 实 例 ， 而 Storm-YARN 命 令 通 过 和 RM 的 联系 管理 YARN 上 的 Storm 应 用 。 


使 用 下 面 的 命令 可 以 看 到 全 部 完整 的 Apache Storm 命 令 : 


storm help [command] 


使 用 下 面 的 命令 可 以 看 到 全 部 完整 的 Storm-YARN 命 令 和 参数 : 


storm-yarn help 


下 面 列 出 了 一 些 重要 的 Storm 命 令 。 


D activate: 这 个 命令 用 来 激活 spout， 就 好 似 打 开 一 个 水 槽 的 水 龙头 就 得 
到 了 水 流 ， 激 活 spout 就 可 以 启动 tuple 的 流 。 

口 deactivate: 这 个 命令 用 来 停 用 spout， 就 好 似 关 上 水 龙头 ， 这 个 命令 可 
以 停止 tuple 的 流 。 

O dev-zookeeper: 这 个 特殊 的 命令 用 来 在 开发 、 调 试 和 测试 时 实例 化 
Zookeeper 集 群 。 当 我 们 在 测试 Storm-on-YARN 包 的 时 候 可 以 使 用 这 个 命 


人 令 。 这 个 临时 集群 的 一 些 属 性 ， 如 dev.zookeeper.path 属 性 指定 了 
T Zookeeper žk J£ A 3k 89 X 1$ , storm.zookeeper.port 属性 指定 了 
Zookeeper 进 程 的 端口 。 


口 drpc: 这 个 命令 用 来 启动 分 布 式 PRC 守 护 进程 。 这 种 分 布 式 RPC 是 一 种 特 
殊 的 、 流 经 Storm 的 RPC 模 式 。 使 用 Apache Storm topology 可 以 并 行 地 处 理 
密集 的 RPC 调 用 。 函 数 名 和 参数 形成 了 输入 流 中 的 tuple。 

O list: 这 个 命令 用 来 列 出 Apache Storm 集 群 中 正在 运行 的 topology。 

口 localconfvalue: 这 个 命令 用 来 打印 某 个 指定 属性 的 值 。 属 性 值 来 
自 .storm 目 录 中 的 storm.yaml 文 件 ( default.yaml 文 件 中 的 属性 已 经 被 合并 到 
这 个 文件 中 )。 
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O logviewer: 这 个 命令 用 来 启动 可 以 直接 在 网 页 上 查看 日 志 的 端口 连接 。 

口 nimbus: 这 个 命令 用 来 启动 Nimbus 守 护 进程 。 

O rebalance: 往 集群 中 添加 节点 可 能 会 要 求 重 新 分 配 集群 中 的 工作 量 。 有 
两 种 方法 可 以 使 用 : 第 一 种 是 终止 再 重启 topolgy， 第 二 种 是 使 用 这 个 
rebalance 命 令 。rebalance 命 令 先 停 用 系统 中 的 spout， 然 后 重新 分 配 
工作 量 ， 最 后 再 激活 spout。trebalance 命 令 同 样 可 以 用 来 改变 集群 中 
worker 的 并 行 度 。 

口 remoteconfvalue: 这 个 命令 用 来 打印 集群 中 某 台 机 器 上 的 某 个 属性 的 
IË. storm.yamI x: 4F 65 3442 Æ $SSTORM-PATH/conf/storm.yaml, 同样 ,这 个 
文件 也 已 经 合并 了 default.yaml 文 件 的 属性 。 

口 supervisor: 这 个 命令 用 来 启动 supervisor 守 护 进 程 。 

Oui: 这 个 命令 用 来 启动 UI 守护 进程 ,网 页 的 端口 在 storm.yaml 文 件 中 给 出 。 


7.4 ”小结 


流 式 处 理 模 式 最 主要 的 目标 是 满足 低 延迟 应 用 的 需求 。Storm-on-YARN 项 目 将 这 种 模式 带 入 
了 Hadoop。 现 在 ， 相 关 人 员 在 一 个 Hadoop 集 群 上 既 可 以 进行 流 式 处 理 ， 又 可 以 进行 批 处 理 ， 可 
以 满足 不 同类 型 的 应 用 需求 。 


有 很 多 流 式 处 理 的 框架 可 以 使 用 , 比如 Microsoft SQL Server StreamInsight , S4, Apache Storm, EN 
等 等 。 相 比 而 言 ，Apache Storm 是 开源 的 ， 也 是 Apache 软 件 基金 会 的 一 部 分 ， 它 集成 了 Hadoop， 
背后 还 有 一 个 庞大 的 社区 ， 这 些 都 使 得 它 对 于 分 布 式 流 式 处 理 来 说 ， 充 满 了 吸引 力 。 


本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 Apache Storm 的 基本 数据 模型 是 一 组 被 称 为 流 的 、 无 限 且 有 序 的 tuple。 
口 长 期 存在 的 查询 被 作为 计算 topology 进 行 建 模 。 数 据 流 流 经 这 些 topology。 
C Apache Storm 提 供 以 下 两 种 原 语 。 


m spout: 它们 将 输入 数据 转换 成 流 。 
m bolt: 它们 接受 一 条 输入 流 ， 对 其 进行 一 些 处 理 ， 然 后 再 输出 男 一 条 流 。 


口 Apache Storm 在 分 布 式 环境 下 提供 了 可 靠 的 消息 传递 和 容错 性 。 

C Apache Storm 使 用 Thrift 来 指定 topology， 因 此 它 与 语言 无 关 。 

口 Storm-on-YARN 是 一 个 正在 发 展 中 的 开源 项 目 ， 最 初 由 雅虎 发 起 ， 它 将 Apache Storm? A 
了 运行 YARN 的 Hadoop 集 群 。 


下 一 章 , 我 们 会 详细 探讨 Hadoop 的 云 支持 , 尤其 是 亚马逊 的 ,目前 亚马逊 是 最 大 的 云 服务 供 
应 商 之 一 。 


I 


r2 


云 上 的 Hadoop 


云 计算 这 种 模式 使 计算 成 为 了 公用 设施 。 就 像 电 网 和 水 力 供应 给 个 人 家 庭 带 来 水 电 一 样 , 云 
计算 允许 个 人 和 企业 不 论 规模 大 小 都 可 以 利用 通过 网 络 连接 而 成 的 、 集 中 式 的 计算 资源 来 执行 所 
需 的 任务 和 运行 他 们 的 应 用 。 


本 章 中 ， 我 们 将 : 


口 纵 观 云 计 算 的 特点 和 优势 

口 比较 研究 亚马逊 AWS 和 微软 Azure 所 提供 的 云 上 的 Hadoop, 这 两 者 都 是 目前 云 计 算 领域 的 
O 深入 研究 被 称 为 Elastic MapReduce (EMR ) 的 由 亚马逊 托管 的 Hadoop 服 务 的 细节 

a 研究 如 何在 几 分 钟 内 部 署 完成 一 个 EMR 集 群 ， 并 运行 MapReduce 作 业 


81 云 计算 的 特点 
美 家 标准 与 技术 研究 院 (NIST, www.nist.gov ) 将 以 下 五 个 重要 特点 定义 为 云 计算 的 本 质 。 


口 按 需 的 自助 服务 : 云 计算 的 消费 者 可 以 随时 快速 获取 和 取消 资源 。 无 需 和 服务 供应 商 进 
行 交互 ， 消 费 考 就 可 以 单方 面 地 以 自助 服务 的 形式 获取 资源 。 比 如 ， 和 凭借 云 计算 ， 某 个 
组 织 可 以 通过 他 们 办 公 室 里 的 某 个 控制 台 来 获取 所 需 配 置 的 Hadoop 集 群 ， 而 不 需要 打 电 
话 给 亚马逊 通知 他 们 。 

口 无 处 不 在 的 网 络 访问 : 通过 网 络 进 行 云 计算 的 自助 服务 十 分 方便 ， 从 手机 到 桌面 电脑 的 
各 类 客户 端 都 可 与 云 计算 服务 进行 交互 ， 使 用 像 HTTP 之 类 的 标准 通信 协议 与 服务 供应 商 
之 间 进 行 通信 。 

口 资源 池 : 云 计算 整个 设置 是 多 租户 的 ， 也 就 是 说 ， 服 务 供应 商 将 计算 资源 汇集 成 资源 池 ， 
消费 者 们 在 资源 池上 操作 他 们 的 工作 。 这 样 可 以 按 需 求 变化 ， 动 态 地 调整 消费 者 之 间 的 
物理 资源 。 

口 快速 而 灵活 : 单个 消费 者 所 使 用 的 资源 可 以 在 很 短 的 时 间 内 按 需 扩展 和 收缩 。 大 多 数 云 
计算 供应 商 也 提供 了 自动 伸缩 功能 ， 资 源 规模 的 扩展 或 收缩 取决 于 消费 者 自己 定义 的 一 

套 条 件 规则 。 使 用 基于 云 的 服务 带 给 消费 者 一 种 容量 无 限 的 感觉 。 
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O 计量 付费 服务 : 云 服务 供应 商 测量 、 监 控 并 报告 每 个 租户 的 使 用 情况 。 测 量 的 情况 对 于 
消费 者 是 透明 的 ， 并 且 收 费 也 是 基于 此 计算 的 。 云 计算 服务 始终 遵循 用 多 少 付 多 少 的 模 
式 ， 即 消费 者 只 需要 为 他 所 使 用 的 服务 买单 就 行 。 比 如 ， 消 费 者 在 三 个 节点 上 搭建 了 
Hadoop 集 群 ， 运 行 了 一 个 小 时 的 MapReduce 作 业 ， 然 后 作业 一 结束 就 停止 了 集群 ， 这 样 
的 话 ， 云 计算 服务 供应 商 只 会 对 消费 者 收取 三 个 节点 上 一 个 小 时 计算 时 间 的 相关 费用 。 


在 云 上 运行 Hadoop 和 集群 的 理由 如 下 。 


口 成 本 更 低 : 在 企业 内 实施 分 析 工 作 往 往 是 数据 处 理 管道 中 的 最 后 一 步 。 在 实施 以 前 ， 需 
要 对 不 同 数据 集 上 的 分 析 和 试验 进行 改进 式 的 迭代 。 而 在 实施 分 析 工 作 之 前 就 准备 一 个 
内 部 的 Hadoop 集 群 可 不 算 一 件 节俭 的 事 ， 因 为 这 牵扯 到 很 大 的 资金 支出 。 而 且 只 要 是 在 
这 个 阶段 提供 的 内 部 集群 ， 要 么 过 度 浪 费 ， 要 么 无 法 满足 需求 。 有 了 云 计算 ， 这 种 情况 
就 得 到 了 缓解 ， 因 为 企业 可 以 基于 他 们 的 需求 来 租借 集群 而 无 需 支 付 集群 的 资金 成 本 。 
另外 ,传统 上 ， 配 置 这 样 一 个 集群 的 硬件 和 软件 需要 花费 数 月 时 间 ， 而 有 了 云 计算 模式 ， 
这 只 需要 几 分 钟 。 

OQ 具有 伸缩 性 : 不 论 是 实验 过 程 还 是 原型 设计 ， 其 工作 负载 都 是 变化 的 。 凭 借以 伸缩 性 而 
闻名 的 云 基础 设施 ， 可 以 搭建 不 同 规模 的 Hadoop 和 集群， 并 且 可 以 基于 作业 需求 添加 和 移 
除 节 点 ， 而 且 这 种 癌 内 或 向 外 的 集群 扩容 也 可 以 是 动态 的 。 

口 便于 管理 : 云端 的 自助 服务 模式 使 管理 和 维护 集群 更 容易 。 这 不 仅 对 管理 成 本 意义 重大 ， 
从 故障 恢复 时 间 来 看 也 是 如 此 。 

基于 云 的 软件 可 以 分 为 三 种 服务 模型 。 

口 基础 设施 即 服务 (Infrastructure as a Service, Iaas ): 云 服务 供应 商 提 供 物 理 或 虚拟 机 作为 

服务 。 

口 平台 即 服务 (Platform as a Service, Paas): 云 服 务 供应 商 提 供 计算 平台 作为 服务 ， 这 种 

计算 平台 可 以 是 执行 运行 时 、 数 据 库 、Hadoop 集 群 或 web 服 务 器 。 

口 软件 即 服务 ( Software as a Service, SaaS): 云 服务 供应 商 提 供 软件 应 用 程序 作为 服务 。 

当 我 们 从 IaaS 迁 移 到 SaaS 后 ， 随 着 服务 成 本 的 降低 ， 应 用 程序 配置 的 灵活 性 也 降低 了 。 云 上 

Hadoop 是 PaaS 模 型 ， 有 时候 也 称 为 Hadoop 即 服务 ( Hadoop as a Service, Haas )。 这 种 分 布 式 计 

算 框架 连同 HDFS 一 起 为 用 户 提 供 服 务 。 


8.2 云 上 的 Hadoop 


所 有 主要 的 云 服 务 供应 商都 把 Hadoop 作 为 PaaSs， 如 亚马逊 的 Elastic MapReduce、 微 软 的 
HDInsight、 谷 歌 基 于 Google Cloud 平 台 的 Hadoop 服 务 , 它们 都 是 这 个 领域 中 的 领跑 者 。 早 在 2009 
年 ， 亚 马 逊 就 率先 开始 提供 Hadoop 云 服务 。 


我 们 对 EMR 和 HDInsight 进 行 了 简单 比较 ， 如 下 表 所 示 。 
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亚马逊 AWS EMR 


微软 Azure HDInsight 


发 布 于 2009 年 ， 服 务 与 技术 成 熟 度 超 过 5 年 
对 新 用 户 而 言 ， 因 为 AWS 很 流行 ， 所 以 学 习 门 槛 
低 。EMR 集 成 在 流行 的 AWS 控 制 台 中 
能 基于 MapR Hadoop 发 行 版 部 署 集 群 
不 支持 微软 Windows 

略微 便宜 

终端 用 户 工具 较 落 后 


原生 支持 Java、Pig 和 Hive。 可 以 使 用 Hadoop 
Streaming 来 运行 其 他 可 执行 程序 /脚本 


发 布 于 2012 年 ， 服 务 与 技术 成 熟 度 约 为 2 年 
人 们 渐渐 地 开始 选择 微软 Azure, 但 是 它 还 没有 像 AWS 一 样 那 么 流 
行 。HDInsight 同 样 集 成 在 微软 Azure 控 制 面板 中 


可 部 署 的 Hadoop 发 行 版 仅 
其 运行 的 Hadoop 发 行 版 为 
相 比 EMR 略 贵 

能 更 好 地 与 微软 Office 套 付 


限于 与 Hortonworks 合 作 的 微软 发 行 版 
微软 Windows 量 身 定制 


F 集 成 。 例 如 ， 提 供 了 Hive ODBC 驱 动 和 


Hive Excel 插 件 用 于 前 端 可 视 化 分 析 
原生 支持 C#、Java、Javascript、Pig 和 Hive。 可 以 使 用 Hadoop 


Streaming 来 运行 其 他 可 执 
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行程 序 / 脚 本 


亚马逊 AWS 以 PaaS 的 形式 提供 Hadoop 服 务 。 公 司 和 个 人 可 以 联机 搭建 Hadoop 集 群 ， 然 后 在 


上 面 运行 作业 、 下 载 结 果 。 使 用 EMR 搭 建 Hadoop 只 需 点 击 几 下 鼠标 ， 分 分 钟 就 能 搞定 。 


使 用 亚马逊 Web Service 需 要 一 个 亚马逊 账号 。 访 问 http:/aws.amazon.com 可 
$s REREH, LRR FE AS. Rit, RA HA S EDR 
务 超出 了 免费 范围 ， 才 会 收取 费用 。 注 册 后 的 电子 邮件 地 址 就 是 用 户 名 。 


在 Elastic MapReduce 创 建 和 运行 作业 一 般 遵 循 如 下 步骤 。 


(1) 使 用 Hadoop MapReduce API、Hive、Pig 或 用 户 选 择 的 其 他 语言 在 本 地 Java 环 境 中 开发 应 
用 。 使 用 Hadoop Streaming 可 以 在 集群 中 执行 非 Java 语 言 的 应 用 。 开 发 者 指南 见 
http://docs.aws.amazon. com/ElasticMapReduce/latest/DeveloperGuide/emr-what-is-emr.html 上 o 


(2) 将 应 用 程序 以 及 相关 数据 保存 在 3 


亚马逊 S3 中 。S3 是 j 


FE 马 逊 提供 的 可 伸缩 的 存储 服务 。 在 


亚马逊 S3 中 保存 数据 有 多 种 途径 。 很 多 客户 端 可 以 用 于 数据 上 传 , 或 者 也 可 以 使 用 Web 接 口 。 数 


据 也 可 以 直接 写 和 人 EMR 和 集群 上 的 HDFS。 


(3) 使 用 管理 控制 台 指 定 集群 配置 和 启动 集群 。 集 群 配置 包括 集群 中 机 融 的 类 型 ，Hadoop 
的 运行 版 本 以 及 需 额 外 安装 在 集群 上 的 应 用 程序 。 集 群 搭建 完毕 后 ， 所 要 执行 的 动作 也 含 在 此 


步 又 内 。 
(4) 集群 随后 启动 ， 完 成 数据 处 理 


na 


在 EMR 上 搭建 Hadoop 集 群 


I 


在 EMR 上 搭建 Hadoop 集 群 ， 有 以 下 几 个 步 又。 


开 结 果 数据 迁移 到 S3 或 直接 从 集群 上 的 HDFS 中 读 取 。 
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(1) 获得 了 亚马逊 账户 后 ， 请 访问 https:/console.aws.amazon.com， 使 用 亚马逊 账号 认证 信息 
进行 登录 。 以 下 屏幕 截图 展示 了 AWS 控 制 台 页 面 , 其 中 列 出 了 亚马逊 提供 的 所 有 云 服务 。 我 们 感 
兴趣 的 服务 有 S3 、 可 伸缩 的 云 存储 服务 Elastic MapReduce 和 Hadoop 托 管 服务 。 


Amazon Web Services 


Compute & Networking 


Direct Connect 
Dedicated Network Connection to AWS 


EC2 
Virtual Servers in the Cloud 


Route 53 
Scalable Domain Name System 


da VPC 


WP isolated Cloud Resources 


Storage & Content Delivery 


sa CloudFront 
WW Global Content Delivery Network 


Glacier 
Archive Storage in the Cloud 


is 

Scalable Storage in the Cloud 

ifa Storage Gateway 
Integrates On-Premises IT Environments with Cloud 
Storage 

Database 


e DynamoDB 
Predictable and Scalable NoSQL Data Store 


q ElastiCache 
> In-Memory Cache 


e RDS 
Managed Relational Database Service 


Redshift 
Managed Petabyte-Scale Data Warehouse Service 


Deployment & Management 


CloudFormation 
Templated AWS Resource Creation 


CloudTrail 
User Activity and Change Tracking 


CloudWatch 
Resource and Application Monitoring 


Elastic Beanstalk 
AWS Application Container 


e IAM 
Secure AWS Access Control 
OpsWorks 
DevOps Application Management Service 


Analytics 


«&. Data Pipeline 
"w Orchestration for Data-Driven Workfiows 


«i» Elastic MapReduce 
Managed Hadoop Framework 


fia Kinesis 
WWE Realtime Processing of Streaming Big Data 


Mobile Services 

[9 Cognito 

口 User Identity and App Data Synchronization 
ææ Mobile Analytics 


F Understand App Usage Data at Scale. 


a SNS 
Push Notification Service 


App Services 


< AppStream 

$È Low Latency Application Streaming 
CloudSearch 
Managed Search Service 


全 Elastic Transcoder 
ww” Easy-to-use Scalable Media Transcoding 


个 SES 
Email Sending Service 


sas 
Message Queue Service 


SWF 
Workflow Service for Coordinating Application 
Components 


Applications 


E] WorkSpaces 
Desktops in the Cloud 


Zocalo 
EI Secure Enterprise Storage and Sharing Service 


(2) Aiit Elastic MapReduce, 用 户 进 入 到 EMR 服 务 管理 页 面 。 以 下 屏幕 截图 展示 了 EMR 页 面 ， 
其 中 简要 介绍 了 EMR 和 启动 集群 的 主要 步 又。Create cluster 按 钮 用 于 启动 Hadoop 集 群 向 导 。 


Services ~ 


Welcome to Amazon Elastic MapReduce 


Amazon Elastic MapReduce (Amazon EMR) is a web service that enables businesses, researchers, data 
analysts, and developers to easily and cost-effectively process vast amounts of data. 


You do not appear to have any clusters. Create one now: 


Create cluster 
How Elastic MapReduce Works 


Upload Create 


Monitor 


O 


Upload your data and processing 
application to S3. 


Configure and create your cluster by Monitor the health and progress of 
specifying data inputs, outputs, your cluster. Retrieve the output in 
cluster size, security settings, etc. S3. 


Learn more Learn more Learn more 
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(3) 在 启动 集群 之 前 , 必须 上 传 数据 以 及 相关 应 用 程序 到 S3。 在 顶部 导航 栏 使 用 Services 下 拉 


Ira 


D 
截图 展示 了 S3 管 理 控制 台 。 


,用 户 可 快速 导航 到 任何 亚马逊 云 服务 的 管理 控制 台 。 可 选择 S3 进 入 S3 管 理 控制 台 。 以 下 屏幕 


All Buckets 


[@ — masteringhadoop 


(4) 不 论 上 传 何 种 文件 ， 事 先 都 必须 在 S3 中 有 一 个 存储 桶 。 


以 使 用 Upload 按 钮 来 上 传 文件 到 S3 。 那里 有 一 个 按钮 用 于 在 存储 桶 中 创建 文件 夹 。Actions 下 拉 框 


一 旦 选择 了 特定 的 存储 桶 ， 就 可 


列 出 了 许多 其 他 操作 ， 如 复制 、 移 动 、 下 载 、 设 置 文件 或 文件 夹 的 访问 控制 权限 。 文 件 列表 显示 
了 元 数据 属性 ， 如 大 小 、 存 储 类 、 某 特定 文件 最 后 修改 的 时 间 戳 。 必 须 指出 的 是 ,文件 夹 没 有 这 


些 元 数据 属性 , 因为 它们 没有 任何 底层 结构 。 有 很 多 S3 文 件 管理 
通过 web 接 口 来 上 传 ， 如 以 下 屏幕 截图 所 示 。 


器 可 以 用 于 上 传 文件 到 S3, 或 者 


Create Folder ^ Actions v 


All Buckets / masteringhadoop 
Name 
D countrycodes.avro 
Em jas 
BE masteringhadoop 
a= 
m sonos 


BH wordcount 


Storage Clal 


Standard 


S3 把 文件 保存 在 称 为 存储 桶 ( bucket ) 的 容器 中 。 存 储 桶 是 单个 账户 的 一 部 


接近 该 区 域 的 用 户 提 供 低 延 迟 的 文件 服务 。 
存储 桶 含有 文件 夹 和 文件 。 文 件 夹 是 伪 结 构 ， 


分 ， 而 且 必 须 是 唯一 的 。 可 以 将 存储 桶 分 配 至 不 同 区 域 (region )， 这 样 可 以 为 


作为 文件 名 的 前 级 。 存 储 桶 


是 一 种 扁平 容器 ， 不 包含 任何 文件 夹层 次 结构 。 以 下 屏幕 截图 展示 了 一 个 S3 账 


号 里 的 MasteringHadoop 存 储 桶 中 的 文件 夹 和 文件 。 


亚马逊 EMR 提 供 了 许多 样 例 作业 ， 这 些 作 业 可 以 运行 在 已 搭建 完毕 的 集群 上 。 其 中 一 个 JAR 


是 用 于 字数 统计 (word count ) 的 Hadoop Streaming 程 序 。 此 程序 用 Python 写成 ， 用 于 统计 文档 中 字 
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符 的 数量 。S3 公 用 桶 中 已 存 有 这 个 程序 和 需要 统计 字符 数量 的 文件 ,任何 人 都 可 以 用 来 测试 EMR 。 


每 个 Hadoop 发 行 版 都 有 Hadoop Streaming 这 个 实用 工具 。 它 可 以 使 用 任何 可 

执行 程序 或 脚本 来 运行 Hadoop 作 业 。 开 发 者 可 以 选择 任何 语言 来 编写 可 执行 程 

- 序 。Hadoop Streaming 特 别 适用 于 在 Hadoop 环 境 中 执行 遗留 应 用 程序 。 但 不 要 把 
Hadoop Streaming 与 我 们 前 章 介 绍 的 流 式 计算 相 混淆 。 


(5) 我 们 将 首先 使 用 Services 导 航 下 拉 框 回 到 EMR 控 制 台 ， 然 后 点 击 控制 台 上 的 Create cluster 
按钮 。 
Create Cluster 页 面 有 多 个 配置 区 。 每 个 配置 区 对 应 配置 集群 的 特定 方面 。 
(6) 第 一 个 配置 区 是 Cluster Configuration ， 描 述 了 集群 属性 。 以 下 屏幕 截图 展示 了 Create 
Cluster 页 面 上 的 这 个 配置 区 ， 下 面 列 举 了 其 中 的 一 些 属性 。 
m 集群 名 (cluster name ): 为 集群 设置 一 个 易 记 名 称 ， 要 便于 识别 和 管理 这 个 集群 。 本 例 
中 ， 集 群 名 称 是 MasteringHadoopWordCount。 
m 终止 保护 ( termination protection ); 这 个 属性 设 为 Yes， 如 以 下 屏幕 截图 所 示 。 当 开局 这 
个 保护 后 ,一 旦 遇 到 故障 就 能 避免 集群 终止 。 如 果 需 要 终止 集群 ， 可 以 在 终止 前 将 此 
属性 设置 为 No 。 建 议 开 启 这 个 属性 ， 因 为 即使 在 终止 集群 前 也 有 可 能 需要 回 滚 集群 实 
例 数据 ， 否 则 所 有 和 集群 实例 的 数据 都 会 丢失 。 
m 日 志 打 印 (logging ): 可 以 开启 日 志 打 印 功 能 , 还 能 指定 一 个 S3 路 径 用 于 转 储 日 志文 件 。 
日 志文 件 会 被 写 人 到 主 节点 (Master Node ) 中 的 /mnt/var/log 目 录 下 。 每 隔 5 分 钟 ， 这 些 
文件 会 被 复制 到 S3。 
m 调试 (debugging): 开启 调试 后 ， 会 在 SimpleDB 中 创建 日 志文 件 的 索引 。 
(7) 下 个 配置 区 是 Tags。EMR 可 以 设置 多 达 10 个 键 - 值 字符 串 。 这些 标 签 保存 在 底层 EC2 实 例 中 ， 
这 些 EC2 实 例 运行 着 Hadoop 集 群 。 标 签 可 以 作为 有 效 的 元 数据 , 帮助 分 类 管理 EMR 集 群 和 EC2 实 例 。 


Configure sample application 
Cluster Configuration 


Cluster name vasteringHadoopWordCount 


Termination protection $) Yes Prevents accidental termination of the cluster: to shut 
down the cluster, you must turn off termi 
No protection. Learn more 
Logging @ Enabled Copy the cluster's log files automatically to S3. Learn 
more 


Log folder S3 location 


[53:/ /masteringhadoop/masteringhadoop| 3 
s3://<bucket-name>/<folder>/ 


Debugging $ Enabled Index logs to enable console debugging functionality 
(requires logging). Learn more 


Tags 
€ Optional: Add up to 10 tags to your EMR cluster. A tag consists of a case-sensitive key-value pair. Tags on EMR clusters are 
propagated to the underlying EC2 instances. Learn more about tagging your Amazon EMR clusters. 


Key Value (optional) 


Add a key to create a tag 
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(8) 我 们 将 在 下 个 配置 区 配置 要 搭建 的 EMR 集 群 的 软 硬 件 。 下 个 屏幕 截图 展示 的 页 面包 含 了 
这 两 个 配置 区 。 


在 软件 配置 (software configuration ) 区 ， 有 以 下 配置 点 。 


m Hadoop 发 行 版 (Hadoop distribution ): 在 这 里 设置 集群 所 用 的 Hadoop 发 行 版 。 亚 马 逊 有 
自己 的 Hadoop 发 行 版 ,这 个 发 行 版 对 亚马逊 EC2 实 例 进行 了 优化 ,也 同样 支持 MapReduce 
的 Hadoop 发 行 版 。AMIversion 下 拉 框 给 出 了 可 用 的 Hadoop 发 行 版 本 ,包括 2.4.0、2.2.0、 
1.0.3 和 0.20.205 。 每 个 Hadoop 版 本 都 对 应 于 不 同 的 AMI。 为 了 在 本 书 中 保持 一 致 ， 在 之 
前 的 屏幕 截图 中 ， 我 们 选择 Hadoop 2.2.0， 它 安装 在 版 本 为 3.0.4 的 AMI 上 。 

额外 组 件 (additional application ): 可 以 向 集群 中 添加 额外 的 组 件 。 默 认 情 况 下 ， 已 安 
装 了 Hive 和 Pig。 如 果 你 的 作业 不 需要 这 些 组件 ， 可 以 移 除 它们 。 这 个 版 本 的 Hadoop 还 
带 有 另外 三 个 组 件 ， 即 HBase、Impala 和 Ganglia。 


在 硬件 配置 (hardware configuration ) 区 ， 有 以 下 配置 点 。 


m 网 络 (network): 可 以 通过 虚拟 私有 云 ( Virtual Private Cloud, VPC ) 连接 私有 云 来 处 
理 敏 感 数据 。 如 以 下 屏幕 截图 所 示 ， 我 们 会 选择 默认 的 VPC。 

EC2 子 网 (EC2 Subnet): 可 以 使 用 下 拉 框 来 选择 EC2 子 网 。 你 所 在 区 域内 所 有 可 用 子 
网 都 会 显示 出 来 。 此 处 有 个 选项 可 以 选择 随机 子 网 ， 如 以 下 屏幕 截图 所 示 。 

m 实例 信息 (instance information ); 可 指定 三 种 EC2 实 例 类 型 ; 

m 主 节点 ( master ): 这 个 EC2 实 例 负责 给 不 同 的 核 节 点 和 任务 节点 分 配 任务 。 必 须 设置 一 
个 主 节 点 实例 。 

mu 核 节点 (core ): 这 些 节点 不 但 执行 任务 而 且 也 可 充当 数据 节点 。 本 例 中 , 我 们 设置 Core 
实例 的 数量 为 2。 我 们 选择 尽 可 能 小 的 VM, ml.medium。 亚马逊 提供 了 很 多 其 他 的 VM， 
这 些 VM 拥 有 不 同 的 CPU 和 内 存 。 

m 任务 节点 (task ): 这 些 节 点 只 能 执行 任务 。 它 们 没有 DataNode 组 件 , 因此 它们 不 是 HDFS 
的 一 部 分 。 


(9) 下 一 步 是 安全 与 访问 ( security and access ) 配置 区 。 它 允许 用 户 对 集群 配置 访问 控制 权限 
和 指定 访问 密 钥 。 如 果 你 想 安 全 登录 到 任意 EC2 实 例 ， 一 个 亚马逊 EC2 密 钥 对 是 必 不 可 少 的 。 当 
通过 ssh 连 接 到 EC2 时 ， 需 使 用 带 有 密 钥 对 的 PEM 文 件 。 有 关 如 何 设置 密 钥 对 的 说 明 ， 可 见 
https://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-access-ssh.html o 在 
本 例 , 我 们 使 用 MasteringHadoop 作 为 密 钥 对 , 通过 ssh 来 访问 集群 。 同样 , 我 们 通过 在 IAM user 
access 中 选择 No Other IAM users， 从 而 不 允许 其 他 任何 AWS 用 户 访 问 集群 EMR 支持 基于 角色 的 
访问 控制 权限 ， 这 里 可 选择 两 种 访问 控制 授权 。 
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Software Configuration 


Hadoop distribution @ Amazon Use Amazon's Hadoop distribution. Learn more 
AMI version 
[ 3.0.4 ES Determines the base configuration of the instances in 
your cluster, including the Hadoop version. Learn more 
MapR Use MapR's Hadoop distribution. Learn more 
Applications to be installed Version 
Hive 0.11.0.2 f X O 
Pig 0.11.1.1 f XO 
Additional applications | Select an application $ 


Configure and add 


Hardware Configuration 


€ Specify the networking and hardware configuration for your cluster. If you need more than 20 EC2 instances, complete this form. 
Request Spot instances (unused EC2 capacity) to save money. 


Network | vpc-2a968d48 (172.31.0.0/16) (default) $| UseaVirtual Private Cloud (VPC) to process sensitive data 
or connect to a private network. Create a VPC 
EC2 Subnet | No preference (random subnet) $]  CreateaSubnet 
Request 
EC2 instance type Count eq 
spot 
Master | mi.medium n 1 The Master instance assigns Hadoop tasks to core and 

Ce task nodes, and monitors their status. 

Core | mi.medium a [2 Core instances run Hadoop tasks and store data using the 
R Hadoop Distributed File System (HDFS). 

Task | mi.medium =) lo Task instances run Hadoop tasks. 


(10) ZEEMR role 下 拉 框 中 选择 一 个 角色 ， 从 而 允许 应 用 程序 以 这 个 角色 访问 其 他 AWS 服 务 ， 
如 EC2。 同样 ,在 EC2 instance profile 中 设置 一 个 角色 ， 从 而 允许 EMR 中 的 EC2 实 例 访问 其 他 AWS 
服务 。 


Security and Access 


EC2 key pair | MasteringHadoop 习 Usean existing key pair to SSH into the master node of the 
Amazon EC2 cluster as the user "hadoop". Learn more 


IAM user access All other IAM users Control the visibility of this cluster to other IAM 
users. Learn more 
@ No other IAM users 
IAM Roles 


€ An IAM role for the EMR service and an EC2 instance profile for instances in an EMR cluster are recommended. You can create and 
assign these roles to limit the permissions of the EMR service and applications running on a cluster. 


EMR role | No roles found $| Allows EMR to access other AWS Services such as EC2 on 
your behalf. Learn more 


Create Default Role 


EC2 instance profile | No roles found $) Allows EC2 instances in an EMR cluster to access other 
AWS services such as S3. Learn more 


Create Default Role 
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(11) 下 个 配置 区 展示 了 如何 为 集群 设置 引导 行为 (bootstrap action)。 如 下 面 的 屏幕 截图 所 示 ， 
这 个 配置 区 可 以 指定 设置 脚本 来 设置 启动 集群 前 所 需 的 任何 特殊 配置 。 Bootstrap action 下 拉 框 的 
选项 用 于 配置 Hadoop ， 配 置 守护 进程 ,根据 谓语 执行 脚本 ,或 执行 一 些 自 定 义 操 作 。 在 本 例 , 我 
们 将 忽略 任何 引导 行为 。 


(12) 最 后 一 个 配置 区 是 步骤 (step )。 在 这 里 作业 会 被 提交 到 Hadoop 集 群 。 在 本 例 中 ， 下 拉 
框 中 的 选项 可 执行 Hive 程 序 、Pig 程 序 、Streaming 程 序 、Impala 程 序 , 或 自 定 义 MapReduce Java JAR 
文件 。 我 们 将 会 了 解 如 何 从 AWS EMR 已 存 样 例 中 选取 添加 streaming 程 序 。 此 配置 区 还 有 一 个 自 
动 终止 行为 ( autoterminate action ), 一 旦 执行 了 最 后 一 步 就 会 终止 集群 。 在 本 例 中 ,我 们 设置 
Auto-terminate 单 项 框 为 No， 因 为 我 们 希望 显 式 终止 集群 。 


Bootstrap Actions 


€ Bootstrap actions are scripts that are executed during setup before Hadoop starts on every cluster node. You can use them to install 
additional software and customize your applications. Learn more 


Bootstrap action type Name S3 location Optional arguments 


Add bootstrap action | selecta bootstrap action 


Configure and add 


Steps 


@ A step is a unit of work you submit to the cluster. A step might contain one or more Hadoop jobs, or contain instructions to install or 
configure an application. You can submit up to 256 steps to a cluster. Learn more 


Name Action on failure JAR S3 location Arguments 


Add step | select a step 


Configure and add 


Auto-terminate Yes Automatically terminate cluster after the last step is 
completed. 
@ No Keep cluster running until you terminate it. 


本 例 中 , 我们 从 下 拉 框 中 选择 一 个 Hadoop Streaming 程 序 步 又。 点 击 Configure and add 按 钮 打 
JFAdd step 向 导 ， 如 下 图 所 示 。 我 们 为 这 个 步骤 键入 一 个 好 记 的 名 字 。 将 Mapper 任 务 设 为 一 个 
Python 程序 ， 其 S3 的 路 径 为 S3:/us-west-2.elasticmapreduce/samples/wordcount/wordSplitterpy。 


Reducer 字 段 设 为 aggregate。 这 是 一 个 内 建 的 reducer， 用 于 计算 每 个 键 对 应 的 值 的 总 和 。 
我 们 运行 word count 的 所 需 文件 在 S3 中 的 路 径 是 s3://us-west-2.elasticmapreduce/samples/ 
wordcount/input。 这 个 可 以 在 Input S3 location 路 径 中 指定 。S3 中 的 输出 路 径 是 s3://masteringhadoop/ 
wordcount/output/2014-07-15/15-28-19, word count 的 结果 就 放 在 这 个 文件 夹 中 。 在 Arguments 框 中 
可 指定 任何 额外 人 参数。 我 们 也 可 以 指定 遇 到 故障 时 所 要 执行 的 步骤 。 本 例 中 , 无 论 遇 到 什么 故障 ， 
我 们 都 选择 终止 集群 。 另 一 个 选项 是 继续 执行 后 续 步 又 或 取消 并 等 竺 用户 干预 。 我 们 接着 点 击 
Save 按 钮 。 在 运行 它 之 前 ， 我 们 准备 再 检查 一 遍 集 群 。 
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Add Step x 


Step type Streaming program 


Name* [word count 


Mapper* s3:/[us-west-2.elasticmapreduce/samples /wordcount/wordSp S3 location of the map function or the name of the Hadoop 
' streaming command to run. 


Reducer* (aggregate S3 location of the reduce function or the name of the 
7 — Hadoop streaming command to run. 


Input S3 location* ;3://us-west-2.elasticmapreduce/samples /wordcount/inp Z2 


S3://«bucket-name»/«folder»/ 
Output S3 location* |.3:; /masteringhadoop/wordcount/output/2014-07-15/1: 一 
s3://<bucket-name>/<folder>/ 
Arguments 
A 
Action on failure | Terminate cluster $) What to do if the step fails. 


~ EB 
(13) Steps 配 置 区 现在 看 上 去 类 似 于 以 下 屏幕 截图 。 点 击 Create cluster 按 钮 开始 搭建 集群 。 


Steps 


@ A step is a unit of work you submit to the cluster. A step might contain one or more Hadoop jobs, or contain instructions to install or 
configure an application. You can submit up to 256 steps to a cluster. Learn more 


Name Action on failure JAR S3 location Arguments 


-files s3://us-west- 
2.elasticmapreduce/samples/ 
wordcount/wordSplitter.py - 
mapper wordSplitter.py - 
reducer aggregate -input 


Word count Terminate cluster UM MER. S3://us-west- f R 

P g 2.elasticmapreduce/samples/ 
wordcount/input -output 
s3://masteringhadoop/wordc 
ount/output/2014-07-15/15- 
28-19 

Add step | Custom JAR M 
Configure and add 
Auto-terminate @ Yes Automatically terminate cluster after the last step is 
completed. 
No Keep cluster running until you terminate it. 


Cancel Create cluster 


计 


(14) 现在 EMR 控 制 面 板 显 示 了 运行 中 的 集群 列表 。 点 击 感 兴趣 的 集群 可 以 查看 这 个 集群 的 详 
情 。 以 下 屏幕 截图 展示 了 集群 的 运行 状态 ， 其 配置 状态 和 各 个 集群 组 件 的 状态 一 览 无 遗 。 在 截图 
中 ， 主 节点 状态 是 Bootstrapping ， 另 两 个 核 节 点 的 状态 是 Provisioning。 
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Elastic MapReduce v ClusterList > Cluster Details EMR Help 
Add step Resize Clone Terminate 
Cluster: MasteringHadoop WordCount Starting Configuring cluster software ec 
Master public DNS: ec2-54-191-123-207.us-west-2.compute.amazonaws.com 
Tags: - View AJl / Edit 
Summary Configuration Details Becurity/Network Hardware 
ID: j.K0ZOQP3QK1WC AMI version: 3.0.4 Availability us-west-2a Master: Bootstrapping 1 mt.medi 
Creation date: 2014-07-15 15:32 Hadoop Amazon 2.2.0 —— Lcid 
(UTC«5:30) distribution: Subnet ID: subnet-d632d3b3 Core: Provisioning 2 m1.mediu 
Elapsed time: 4 minutes Applications: — Key name: MasteringHadoop m 
Auto- Yes Log URI: s3//masteringhadoop/ma EC2 instance — Task: — 
terminate: steringhadoop/ E profile: 
Termination On. Change EMR role: — 
protection: Visible to all None Change 
users: 
» Monitoring 
» Steps 
» Bootstrap Actions 


(15) 这 个 页 面 有 可 展开 部 分 , 展开 后 可 以 查看 各 个 部 分 的 详情 。 当 我 们 展开 Steps 后 ,其 详情 
如 以 下 屏幕 截图 所 示 。 可 见 Hadoop 安 装 步 又 已 经 完成 ，word count streaming 程 序 当前 正在 运行 。 


* Steps 
Steps View all interactive jobs | View all jobs 
Filter: | Ai steps 3) [iter steps 2 steps (all loaded) 
iD Name Status Start time (UTC+5:30) , Elapsed time Log files Actions 
» @ :QJB19050XTRT Wordcount Running 2014-07-15 15:37 2 minutes No logs created Yet © View joba 
Setup 
» -KEBSSMEIWXIT hadoop Completed — 2014-07-15 15:37 32 seconds View logs. View jobs 
debugging 


(16) 右边 的 链接 可 以 获取 执行 时 作业 的 详情 。 点 击 当 前 处 于 执行 步骤 的 作业 的 View jobs 链 
接 ， 会 显示 作业 及 其 任务 的 详情 ， 如 以 下 屏幕 截图 所 示 。 程 序 由 3 个 正在 执行 的 Reduce 任 务 和 12 
个 Map 任 务 组 成 。 点 击 View attempts 链 接 可 以 分 析 任 务 具体 的 尝试 情况 。 每 个 任务 的 状态 也 显示 
在 这 个 页 面 上 。 


Steps > Jobs > Tasks View all interactive jobs | View all jobs 
Tasks for: s-QJB19O5OXTRT, Job 1405418724813 0001 
Task summary: 15 total tasks - 15 completed, 0 running, 0 failed, 0 pending, 0 cancelled. 
Filter: c 
Task Type State Start time (UTC+5:30) Actions 
1.000002 REDUCE COMPLETED 2014-07-15 15:40:07 View attempts 
r. 000001 REDUCE COMPLETED 2014-07-15 15:39:46 View attempts 
1. 000000 REDUCE COMPLETED 2014-07-15 15:39:34 View attempts 
m. 000011 MAP COMPLETED 2014-07-15 15:39:44 View attempts 
m. 000010 MAP COMPLETED 2014-07-15 15:39:21 View attempts 
m. 000009 MAP COMPLETED 2014-07-15 15:39:17 View attempts 
m. 000008 MAP COMPLETED 2014-07-15 15:39:17 View attempts 
m. 000007 MAP COMPLETED 2014-07-15 15:39:04 View attempts 
m. 000006 MAP COMPLETED 2014-07-15 15:38:48 View attempts 
m. 000005 MAP COMPLETED 2014-07-15 15:38:46 View attempts 
m. 000004 MAP COMPLETED 2014-07-15 15:38:46 View attempts 
m. 000003 MAP COMPLETED 2014-07-15 15:38:31 View attempts 
m. 000002 MAP COMPLETED 2014-07-15 15:38:11 View attempts 
m. 000001 MAP COMPLETED 2014-07-15 15:38:11 View attempts 
m. 000000 MAP COMPLETED 2014-07-15 15:38:11 View attempts 
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(17) 在 EMR 控 制 面板 上 展开 集群 信息 , 可 以 快速 查看 集群 摘要 。 运行 时 间 等 细节 都 显示 在 这 


里 ， 也 可 以 看 到 各 个 步骤 的 运行 时 间 ， 如 以 下 


屏幕 截图 所 示 。 


Filter: | Ai clusters. F 1 cluster (all loaded) c 
Name ID Status Creation time (UTC«5:30) ~ Elapsed time Normalized 
Instance hours 
a MasteringHadoop WordCount HKOZOQP3QKIWC demos 2014-07-15 15:32 9 minutes 6 
AI riep oompleted 
Summary Steps View all interactive jobs. Bootstrap Actions. 
Master &c2-54-191-123-207 .u$-west- Name Status Start time (UTC4&:30). y Elapsed time Name 
publie DNS: 2 compute amaronaws com 
Termination Weed count Competed — 2014-07-15 15:37 3 minutes 
protection: On 
ts Setup hudoop debugging Completed 2014-07-15 1537 32 seconds NO bootetrap actions avete 
Hardware. 
Master: Torminaeed 1 mtmedium 
Core: Terminated 2 mi medium 
Task: 
View cluster detalis 


(18) 最 后 ， 当 作业 完成 后 ,可 以 在 S3 中 查看 到 输出 文件 ， 而 输出 文件 夹 已 经 在 启动 任务 时 就 
指定 了 。 以 下 屏幕 截图 展示 了 S3 中 的 输出 文件 夹 。 我 们 作业 中 有 3 个 Reduce 任 务 ， 所 以 在 S3 中 会 


产生 3 个 输出 文件 ， 每 个 Reduce 任 务 产生 一 个 文件 。 


Create Folder ^ Actions v 


Name 
[O -success 
口 par-ooooo 
口 part-00001 
国 口 par-00002 


All Buckets / masteringhadoop / wordcount / output / 2014-07-15 / 15-28-19 


None Properties ^ Transfers e 

Storage Class Size Last Modified 
Standard 0 bytes Tue Jul 15 15:40:24 GMT4530 2014 
Standard 973KB Tue Jul 15 15:40:11 GMT4530 2014 
Standard 98.6 KB Tue Jul 15 15:40:12 GMT4530 2014 
Standard 97.1 KB Tue Jul 15 15:40:24 GMT4530 2014 


通过 管理 控制 台 ， 我 们 也 可 以 运行 Hive 和 Pig 肢 本， 而 这 些 脚 本 需要 上 传 到 S3。 在 软件 配置 
步骤 中 ， 我 们 需要 根据 具体 需求 指定 安装 Hive 和 /或 Pig。 以 下 屏幕 截图 展示 了 集群 的 Software 
Configuration 配 置 区 ， 这 里 已 安装 了 Hive 和 Pig。 基 于 选择 的 AMI， 会 有 对 应 版 本 的 Hive 和 Pig。 


Software Configuration 
Hadoop distribution ® Amazon 


AMI version 
| 3.0.4 


MapR 
Applications to be installed 
Hive 


Pig 


Version 
0.11.0.2 


0.11.1.1 


Use Amazon's Hadoop distribution. Learn more 


+) Determines the base configuration of the instances in 
- your cluster, including the Hadoop version. Learn more 


Use MapR's Hadoop distribution. Learn more 


f XO 
f XO 


Additional applications | select an application 


Configure and add 


我 们 将 会 了 解 到 如 何在 EMR 上 交互 式 地 运行 Hive 和 Pig， 而 不 是 通过 管理 控制 台 批 处 理 地 运 


行 它 们 。 一 旦 集群 搭建 完毕 ， 


并 装 有 Hive 和 Pig， 我 们 就 能 安全 地 登陆 到 主 节 点 。 再 次 重申 ， 一 
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定 要 从 亚马逊 那里 获取 密 钥 对 并 分 配给 集群 。 如 果 这 步 没 有 完成 ， 就 不 可 能 安全 地 登陆 到 集群 。 


以 下 屏幕 截图 展示 了 如 何 安全 地 登录 到 集群 。 主 节 点 的 DNS 名 可 以 从 集群 状态 页 那里 复制 而 
来 。 在 本 例 中 ， 主 节点 的 DNS 名 是 sc2-54-191-39-199.us-west-2.compute.amazonaws . 


TE 


como 


登录 时 一 定 要 提供 用 户 名 ， 这 一 点 同样 重要 。 所 有 Hadoop 服 务 都 运行 在 hadoop 用 户 下 。 


running 


在 主 节点 的 命令 行 中 输入 各 个 程序 的 名 称 就 可 以 启动 Hive 和 Pig (Grunt ) 的 shell， 如 以 下 屏 


幕 截图 所 示 。 


命令 。 文 件 位 置 可 以 指定 为 s3://<bucket name>/ 


现在 可 以 在 提示 符 中 执行 交互 式 
<folder name>， 以 便 从 S3 中 读 取 它们 。 
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8.4 小 结 


云 计算 对 于 实施 分 析 以 前 的 开发 工作 来 说 是 一 种 经 济 而 有 效 的 方法 。 云 计算 的 自助 服务 、 计 
量 付费 以 及 弹性 部 署 等 特性 成 为 它 的 成 本 优势 。 很 多 像 Yelp 和 Netflix 的 公司 在 云 上 运行 着 大 量 的 
分 析 工 作 。 对 于 所 有 主流 的 云 服务 供应 商 来 说 ，Apache Hadoop 都 是 一 种 可 用 的 PaaS 的 提供 方式 。 


本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 亚马逊 的 Hadoop 服 务 称 为 Elastic MapReduce (EMR ), 发布 于 2009 年 左右 。 微 软 在 2012 年 

发 布 了 Hadoop 服 务 ， 称 为 HDInsight on Microsoft Azure. 

口 使 用 AWS 账 号 ， 只 需 几 分 钟 就 可 启动 一 个 Hadoop 集 群 。 当 前 ， 这 种 Hadoop 集 群 的 EC2 实 
例 数 不 能 超过 20。 如 要 更 多 实例 ， 需 向 亚马逊 发 送 特殊 需求 邮件 。 有 一 点 需要 留意 : 
用 后 记得 终止 Hadoop EMR 和 集群 ， 否 则 ， 即 使 集群 是 闲置 的 也 会 产生 费用 。 

O EMR 提 供 很 多 Hadoop 版 本 ， 最 新 版 是 2.4。 它 也 提供 MapR Hadoop 发 行 版 。 

口 目前 为 止 , EMR 可 以 运行 自 定义 JAR、Hive 查 询 语句 、Pig 脚 本 和 Hadoop Streaming 程 序 。 
程序 输入 和 MapReduce 程 序 一 般 都 保存 在 S3 中 ，S3 是 亚马逊 AWS 提 供 的 可 伸缩 的 存储 
系统 。 

口 EMR 为 Hadoop 集 群 提供 了 细 粒 度 的 访问 控制 ， 可 以 定义 角色 并 适当 分 配角 色 。 


在 下 一 章 , 我 们 会 了 解 到 HDFS 如 何 被 其 他 文件 系统 取代 。 有 了 HDFS 替 代 策 略 , 作业 执行 前 
的 文件 装载 时 间 会 显著 减少 ， 从 而 降低 作业 延迟 。 


HDFS24Xü 


底层 文件 系统 对 MapReduce 计 算 模型 的 并 行 性 和 可 伸缩 性 有 极 大 的 影响 。 大 多 数 Hadoop 发 行 
版 中 默认 的 文件 系统 都 是 HDFS。HDFS 自 动 对 文件 分 块 , 然后 复制 文件 并 分 散 保存 在 集群 的 节点 
中 。 这 种 数据 分 布 模式 信息 会 提供 给 MapReduce 引 擎 ， 然 后 引擎 会 智能 地 分 配 任 务 到 节点 上 ， 从 
而 最 小 化 网 络 中 传输 的 数据 量 。 


然而 ， 在 很 多 用 例 中 ，HDFS 并 不 一 定 是 最 佳 选 择 。 在 本 章 ， 我 们 会 了 解 到 以 下 主题 。 


口 HDFS 与 其 他 POSIX 文 件 系 统 的 优 缺 点 比较 。 

口 Hadoop 支 持 的 其 他 文件 系统 。 其 中 一 个 是 亚马逊 云 存 储 服 务 ( Amazon's cloud storage 
service )， 称 为 简单 存储 服务 (simple storage service, S3 )。 在 Hadoop 中 ， 人 允许 通过 S3 服 
务 读 写 文件 。 

口 Hadoop HDFS 可 扩展 的 特性 。 扩 展 HDFS 有 两 种 方式 : 提供 全 新 的 对 象 存储 接口 ; 提供 即 
搬 即 用 的 HDFS 替 代 品 。 前 一 种 方式 需要 修改 MapReduce 层 , 使 其 能 通过 新 接口 读 取 数 据 。 
而 后 一 种 方式 则 无 需 修改 现存 作业 。 

口 如 何 扩展 HDFS， 使 其 支持 S3 原 生 文 件 系 统 。 


9.1 HDFS 的 优 缺 点 


HDFS 有 优点 也 有 缺点 。 其 优点 如 下 所 示 。 


口 HDFS 物 美 价 廉 的 原因 有 两 个 。 首 先 ，HDFS 文 件 系 统 可 运行 在 普通 存储 磁盘 上 ， 这 种 磁 
盘 的 价格 远 低 于 企业 级 存储 。 其 次 ,文件 系统 与 计算 框架 共享 这 些 硬 件 ， 如 MapReduce。 
而 且 HDFS 是 开源 的 ， 用 户 无 需 缴纳 使 用 费 。 

O HDFS 的 存在 时 间 已 超过 7 年 ， 并 且 是 公认 的 成 熟 技 术 。 其 背后 有 庞大 的 社区 支持 ， 且 许 

多 公司 都 在 HDFS 上 存放 了 PB 级 的 数据 。 

口 HDFS 优 化 了 MapReduce 的 工作 负载 。 它 文 持 性 能 极 高 的 顺序 读 写 ， 这 是 MapReduce 作 业 
典型 的 数据 访问 模式 。 
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但 是 ，HDFS 不 能 满足 企业 中 涌现 的 所 有 数据 需求 。 其 主要 缺点 是 HDFS 不 兼容 POSIX。 这 意 
味 着 


口 HDFS 是 不 可 变 的 ， 即 不 能 修改 文件 。 若 要 修改 还 不 如 从 头 创建 。 所 以 在 HDFS 演 化 的 较 
晚期 ， 引 入 了 append 操 作 ， 这 是 唯一 可 以 修改 文件 的 操作 。 

口 HDFS 不 可 被 挂 载 。 不 同 于 兼容 POSIX 的 文件 系统 ，HDFS 不 能 被 挂 载 ， 然 后 进行 操作 。 
这 导致 无 法 使 用 很 多 流行 的 常用 文件 系统 工具 ， 如 查询 、 浏 览 、 操 作 数 据 的 工具 。 

口 HDFS 对 流 式 读 取 有 所 优化 ,但 不 擅长 随机 访问 文件 。 这 个 缺点 连同 前 两 个 缺点 ， 让 用 户 
从 整体 上 觉得 操作 HDFS 中 的 文件 很 繁琐。 

O 尽管 HDFS 对 MapReduce 作 业 有 所 优化 ， 但 是 引入 YARN 后 Hadoop 演 变 成 了 一 个 通用 集群 
计算 框架 。 其 他 计算 模型 可 能 对 底层 文件 系统 的 要 求 有 所 不 同 , 而 HDFS 达 不 到 那些 要 求 。 


9.2 Xr 55 AWS S3 


简称 为 S3 的 Simple Storage Service 是 亚马逊 公司 提供 的 存储 服务 。 服 务 基 于 宛 余 ， 提 供 可 靠 
的 数据 存储 。 用 户 在 $S3 上 存储 数据 是 收费 的 , 收费 标准 基于 存储 使 用 总 量 。 从 S3 中 下 载 数据 也 是 
收费 的 ， 但 是 上 传 数据 和 在 AWS 服 务 间 传 输 数 据 是 免费 的 。 这 些 极力 吸引 着 用 户 在 AWS 上 运行 
EMR (Elastic Map Reduce ) 和 在 S3 上 存储 数据 。 


MapReduce 作 业 可 以 使 用 S3 来 存储 输入 和 输出 数据 。 中 间 文 件 可 以 保存 在 本 地 磁盘 或 EMR 
集群 中 的 HDFS。 凭 借 这 种 方式 也 可 以 和 公司 同事 轻松 地 分 享 输入 数据 和 结果 数据 而 不 用 担心 数 
WER, 另外 数据 安全 性 也 很 高 。 如 果 一 个 EMR 集 群 意外 宕 机 , 除非 数据 被 迁移 , 否则 所 有 HDFS 
中 的 数据 都 会 丢失 。 使 用 S3 来 存放 输入 和 输出 数据 则 降低 了 此 类 风险 。 


然而 , S3 明 显 比较 慢 , 因为 它 不 支持 数据 本 地 化 , 所 以 需要 使 用 得 当 。 最 佳 实践 是 MapReduce 
作业 从 S3 中 获取 初始 数据 , 然后 把 最 终结 果 存 回 S3。 串 联 MapReduce 作 业 产 生 的 所 有 中 间 结 果 应 
该 存放 在 HDFS 中 。 


Hadoop 对 S3 的 支持 
Hadoop 文 持 在 集群 和 S3 之 间 互 传 数 据 。Hadoop 文 持 以 下 两 种 文件 存储 。 


O S3 原 生 文件 系统 ( S3 native filesystem, s3n ): Hadoop 中 的 S3 原 生 文 件 系 统 对 象 以 S3 对 象 
( S3 object) 的 形式 对 文件 进行 读 写 。 文 件 以 S3 原 生 格 式 进 行 保存 ， 这 样 就 能 使 用 其 他 S3 
工具 读 取 文件 。 但 是 ，S3 要 求 单个 文件 对 象 大 小 不 超过 5 TB。 

O S3 块 式 文件 系统 (S3 block filesystem, s3): 类 似 于 文件 在 HDFS 中 的 存放 形式 。 文 件 被 
分 成 多 个 块 ， 然 后 所 有 的 块 通过 $3 进行 存储 。S3 纯 粹 是 文件 块 的 存储 层 。 尽 管 基 于 S3 的 
块 式 文件 系统 允许 存储 大 于 5 TB 的 文件 ， 但 是 它 要 求 使 用 整个 存储 桶 用 于 Hadoop 存 储 ， 
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且 不 允许 存放 非 块 式 的 文件 。 与 S3 原 生 文件 系统 不 同 ， 这 个 文件 系统 不 允许 通过 其 他 标 
准 的 S3 工 具 读 取 数 据 。 


S3 抉 式 文件 系统 几乎 可 以 作为 HDFS 的 藤 入 式 蔡 代 品 。 但 是 ， 它 有 一 些 局 限 性 。 除 了 数据 本 
地 化 之 外 , 最 大 的 局 限 性 就 是 分 布 式 存储 与 生 俱 来 的 最 终 一 致 性 问题 。 对 文件 系统 所 做 的 变化 并 
不 一 定 立 即 可 见 ， 并 且 可 见 时 间 不 可 控 。 


配置 上 也 有 一 点 变化 ,比如 ， 当 使 用 上 述 文件 系统 驱动 器 与 S3 存 储 桶 进行 连接 ,并 将 文件 传 
入 传 出 时 ， 必 须 提供 S3 存 储 通 的 认证 信息 (credential )。 可 以 对 Hadoop conf 目 录 下 的 core-site.xml 
文件 进行 修改 ，XML 片段 如 下 所 示 : 


«property» 
«name»fs.s3n.awsAccessKeyId«/name- 
«value»«Your access id»«/value» 

«/property» 


«property» 
«name»fs.s3n.awsSecretAccessKey«/name-» 
«value»«Your secret key»«/value» 

«/property» 


上 述 代 码 指定 了 Hadoop 的 S3 原 生 文件 系统 驱动 器 连接 到 S3 服 务 的 认证 信息 。 如 果 使 用 S3 块 
式 文件 系统 驱动 器 ， 那 么 属性 名 要 改 为 fs.s3.awsAccessKeyId 和 fs.s3.awsSecretKeyIa。 


现在 任何 HDFS 命 令 都 可 通过 在 URL 中 添加 scheme， 如 s3 或 s3n， 就 可 对 指定 的 S3 路 径 进行 
文件 操作 。 例 如 ， 以 下 命令 罗列 了 masteringhadoop AWS 存 储 桶 中 的 所 有 文件 : 


hadoop fs -1s s3n://masteringhadoop/ 
命令 执行 结果 如 下 : 


Found 10 items 

-rw-rw-rw- 1 43736787 2014-07-31 16:44 
S3n://masteringhadoop/HDFSReplacements-1.0-SNAPSHOT-jar-withdependencies.jar 
-rw-rw-rw- 1 3875 2014-06-08 20:06 

S3n://masteringhadoop/countrycodes.avro 

-rw-rw-rw- 1 3787 2014-07-19 10:18 

S3n://masteringhadoop/countrycodes.txt 

drwxrwxrwx - 0 1970-01-01 05:30 

S3n://masteringhadoop/jars 
drwxrwxrwx - 0 1970-01-01 05:30 
S3n://masteringhadoop/logs 
drwxrwxrwx - 0 1970-01-01 05:30 s3n://masteringhadoop/masteringhadoop 
drwxrwxrwx - 0 1970-01-01 05:30 

s3n://masteringhadoop/songs 

drwxrwxrwx - 0 1970-01-01 05:30 

S3n://masteringhadoop/user 

drwxrwxrwx - 0 1970-01-01 05:30 s3n://masteringhadoop/wordcount 


此 处 需要 注意 的 关键 一 点 是 ， 正 是 因为 core-site.xml 文 件 指定 了 S3 认 证 信息 ，Hadoop 才 能 方 
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便 地 连接 S3 服 务 。S3 文 件 系 统 以 scheme 作 为 地 址 ， 如 s3n, 代表 使 用 Hadoop 的 S3 原 生 文件 系统 驱 
动 器 。 如 果 我 们 要 使 用 S3 块 式 文件 系统 驱动 器 ， 可 以 把 scheme 改 为 s3。 


除了 在 core-site.xml 文 件 中 指定 访问 密 钥 和 机 密 密 钥 ， 另外 也 可 以 在 文件 路 径 中 直接 指定 ， 
如 下 所 示 : 


S3n://AWS-ACCESS-ID:AWS-SECRET-KEYGmasteringhadoop/ 


通过 AWS 管 理 控制 台 上 的 账户 模块 ， 可 以 获得 AWS 的 访问 密 钥 和 机 密 密 钥 。 


9.3 在 Hadoop 中 实现 文件 系统 


基于 这 种 情形 ， 可 能 有 必要 用 自己 选 定 的 文件 系统 替换 掉 HDFS。Hadoop 可 以 方便 地 支持 新 
的 文件 系统 ， 如 S3。 替 代 HDFS 的 方式 可 以 是 内 骨 式 替代 或 如 S3 那 样 ， 无 颖 集成 S3 文 件 存储 来 存 
放 输 入 和 输出 数据 。 


在 本 节 ， 我 们 会 重新 实现 S3 原 生 文 件 系统 ， 并 用 其 来 扩展 Hadoop。 本 节 代 码 演 示 了 如 何 开 
发 HDFS 替 代 品 的 步骤 。 为 了 简短 起 见 ， 省 略 了 错误 处 理 和 其 他 有 关 S3 的 功能 。 


为 Hadoop 实 现 文件 系统 的 主要 步骤 如 下 所 示 。 
(]) 扩展 org .apache.hadoop.fs.FileSystem 抽 象 类 , 并 重 写 所 有 抽象 方法 。 已 有 一 些 可 


用 的 实现 类 ,如 FilterFileSystem.NativeS3FileSystem、S3FileSystem.RawLocalFile- 


System, FTPFileSystemfllviewFileSystem, 


(2) open 方 法 返回 一 个 FsDataInputStream 对 象 。 如 果 用 户 希望 与 Hadoop 底 层 文件 系统 集 
成 ， 需 创建 Inputstream 支 持 对 象 (backing object )， 用 于 从 底层 文件 系统 读 取 数据 。 


(3) create 和 append 方 法 返回 一 个 FspDataoutputStream 对 象 。 如 果 用 户 希 望 与 Hadoop 
底层 文件 系统 集成 ， 需 创建 Outputstream 支 持 对 象 ， 用 于 向 底层 文件 系统 写 入 数据 。 


(4) 无 论 有 没有 定义 Path 对 象 所 指 文件 的 状态 ， 都 需 创建 org .apache.hadoop.fs. 
Filestatus 对 象 。 


(5) 包含 实现 类 的 JAR 文 件 需 放 在 SHADOOP_HOME/share/hadoop/hdfylib 目 录 下 ， 这 样 当 分 
布 式 文件 系统 启动 的 时 候 才 能 识别 到 它 。core-site.xml 文 件 需要 配置 fs .<scheme>.impl 属 性 ， 
它 的 值 是 文件 系统 实现 类 的 完整 类 名 。 在 此 文件 中 也 可 以 设置 额外 的 属性 来 配置 文件 系统 。 


9.4 在 Hadoop 中 实现 S3 原生 文件 系统 
让 我 们 首先 为 文件 系统 创建 Tnputstream 和 outputstream。 在 本 例 中 , 我 们 需要 通过 连接 
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AWS 来 向 S3 读 写 文件 。 


Hadoop 提 供 FSInputStream 类 来 帮助 我 们 实现 自 定义 的 文件 系统 。 在 本 例 的 实现 类 中 ， 我 
们 扩展 了 这 个 类 并 重 写 了 一 些 方法 。 许 多 私有 变量 (private variable) 的 声明 、 构 造 方法 、 用 于 
初始 化 客户 端的 辅助 方法 ,都 在 以 下 代码 片段 中 。 私 有 变量 上 包含 了 一 些 对 象 , 这 些 对 象 用 于 配 
置 文件 系统 和 从 文件 系统 中 读 取 数据 。 本 例 中 ,我们 用 到 的 对 象 有 Amazons3client， 用 于 调用 
AWS 服 务 商 的 REST 网 络 API, S30bject 代 表 位 于 S3 服 务 上 的 远程 对 象 ,S30bjectInputsStream 
代表 对 象 流 ， 读 操作 的 时 候 会 用 到 这 个 对 象 。 所 有 AWS 相 关 的 类 都 在 com.amazonaws . 
setrvices.s3 和 com.amazonaws .services.s3.model 包 中 。 代 码 中 还 有 其 他 一 些 私 有 变量 ， 
如 S3 存 储 桶 的 名 字 和 S3 的 键 。 传 人 构造 方法 的 Hadoopconfiguration 对 象 用 于 读 取 任 何 用 户 可 
能 定义 的 配置 属性 。 


构造 方法 确保 正确 初始 化 所 有 的 私有 变量 。 在 本 例 中 , 我 们 延迟 打开 S3 对 象 流 ,因此 , 在 构 
造 方法 中 没有 初始 化 流 的 调用 。 为 了 延迟 初始 化 这 个 对 象 和 对 象 流 ， 我 们 创建 了 openobject 和 
openS3Stream 这 两 个 方法 。 如 果 这 个 对 象 没 有 被 初始 化 ， 那 么 openobject 会 调用 
opens3 Stream 方 法 并 定位 流 到 文件 头 部 。 opens3 stream 方 法 会 终止 任何 已 打开 的 流 ， 并 重新 
初始 化 一 个 全 新 的 对 象 和 流 。 


private class S3NFsInputStream extends FSInputStream(í 


private AmazonS3Client s3Client; 
private Configuration configuration; 
private String bucket; 

private String key; 

private long length; 


private S3ObjectInputStream s3ObjectInputStream; 
private S30bject s30bject; 
private long position; 


public S3NFsInputStream(AmazonS3Client s3, Configuration 
conf, String bucket, String key, long length) ( 
super(); 


this.s3Client - s3; 
this.configuration - conf; 
this.bucket - bucket; 
this.key - key; 
this.length - length; 
this.s3O0bject = null; 

} 


private void openObject()( 


if (s30bject == null)( 
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openS3Stream(0); 


} 
private void openS3Stream(long position)( 


if(s3ObjectinputStream !- null)( 
s3ObjectInputStream.abort(); 
jJ 


GetObjectRequest objectRequest = newGetObjectRequest(this.bucket, this.key); 
objectRequest.setRange(position, length - 1); 
this.s3Object = this.s3Client.getObject (objectRequest); 
this.s3ObjectInputStream = 

this.s3Object.getObjectContent(); 


this.position - position; 
) 
在 前 面 例子 中 , 我 们 其 实 是 先 实 现 了 必须 强制 重 写 的 方法 。 以 下 代码 片段 给 出 了 这 些 被 重 写 
的 方法 和 它们 的 实现 。 重 写 后 的 read 方 法 用 于 从 输入 流 中 读 取 一 个 字 节 ， 输 入 流 的 位 置 是 递增 
的 。 重 写 后 的 read 方 法 还 有 另 一 个 重 载 方法 ， 这 方法 会 填充 字 节 缓冲 区 ， 然 后 返回 读 取 的 字 节 
总 数 。 为 了 延迟 初始 化 流 对 象 , 在 从 s3objectInputStream 读 取 字 节 前 ， 所 有 这 些 方法 会 先 调 
用 openobj ect 方 法 。 


close 方 法 用 于 清理 对 象 ，seek 方 法 用 于 定位 到 文件 中 的 指定 位 置 。 在 这 个 简单 的 实现 中 ， 
我 们 不 支持 任何 标记 。 你 可 以 取消 文件 中 那些 用 来 实现 可 切 分 压缩 的 标记 。 


GOverride 
public int read() throws IOException ( 


openObject(); 
int readByte = this.s3ObjectInputStream.read(); 


if(readByte >= O)( 
this.position--«; 


) 


return readByte; 


) 


GOverride 
public int read(byte[] b, int off, int len) throws IOException { 


openObject(); 
int readByte = this.s3ObjectInputStream.read 
(b, off, len); 


if(readByte >= O)( 
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this.position--readByte; 


j 
return readByte; 


} 


GOverride 
public void close() throws IOException ( 
super.close(); 


if(s3O0bject !- null)( 
s3O0bject.close(); 
j 


GOverride 
public boolean markSupported() ( 
return false; 


} 


GOverride 
public void seek(long 1) throws IOException ( 


if(this.position == 1){ 
return; 


j 
openS3Stream(1); 


} 


GOverride 
public long getPos() throws IOException ( 
return this.position; 


} 


GOverride 
public boolean seekToNewSource(long 1) throws IOException 


( 


return false; 


} 


} 

接 下 去 ， 我 们 会 实现 输出 流 ， 用 于 将 文件 写 人 对 象 。 我 们 会 继承 java. io.OutputStream 
包 ， 并 重 写 抽 象 方法 。 与 实现 输入 流 类 似 ， 我 们 也 会 声明 一 批 私有 变量 ， 如 amazonS3Client、 
Hadoop configuration 和 支持 对 象 outputStream。 这 里 采取 的 策略 是 写 和 人 本 地 文件 ， 并 且 当 
输入 流 关闭 后 ， 本 地 文件 会 上 传 到 S3。 为 简化 写 人 本 地 文件 ， 我 们 创建 了 Bufferedoutput- 
Stream 和 LocalDirAllocator 对 象 。 


当 客 户 端 写 入 outputStream 这 个 对 象 的 时 候 ， 会 创建 一 个 临时 文件 并 写 人 Buffered- 


9.4 在 Hadoop 中 实现 S3 原生 文件 系统 183 


OutputStream 对 象 。 临 时 文件 会 建 在 本 地 目录 中 ， 这 个 目录 是 在 配置 中 指定 ,我 们 使 用 配置 中 
hadoop .tmp .air 属性 的 值 来 确定 临时 目录 。 此 处 给 出 的 范例 代码 是 为 了 演示 如 何 扩展 HDFS ， 
并 不 适合 在 生产 环境 中 直接 使 用 。 例 如 ,临时 目录 实际 需要 手动 清理 。 并 且 ， 我 们 使 用 相同 的 备 
用 文件 名 temp， 这 在 多 线程 环境 中 会 导致 线程 安全 问题 。 


构造 方法 会 在 本 地 目录 中 创建 临时 文件 ， 同 时 初始 化 Bufferedoutputstream。 基 于 
BufferedoutputStream 的 操作 对 write 和 flush 进 行 了 重 写 。 我 们 会 在 重 写 后 的 close 方 法 中 
把 本 地 文件 上 传 到 S3。 这 些 待 上 传 到 S3 的 对 象 ， 其 属性 可 以 通过 S3 的 PutoObjectRequest 类 进 
行 设置 。 接 着 使 用 Amazons3client 对 象 来 上 传 本 地 文件 : 


private class S3NFsOutputStream extends OutputStream( 


private OutputStream localFileStream; 

private AmazonS3Client s3Client; 

private LocalDirAllocator localDirAllocator; 
private Configuration configuration; 

private File backingFile; 

private BufferedOutputStream bufferedOutputStream; 
private String bucket; 

private String key; 


public S3NFsOutputStream(AmazonS3Client s3, Configuration 
conf, String bucket, String key) throws IOException(í 
super(); 
his.s3Client - s3; 
his.configuration - conf; 
his.localDirAllocator - new 
LocalDirAllocator("$(hadoop.tmp.dir)/s3mh"); 


GE or cct 


this.backingFile - 
localDirAllocator.createTmpFileForWrite("temp", 
LocalDirAllocator.SIZE UNKNOWN, conf); 
this.bufferedOutputStream = new 
BufferedOutputStream(new 
FileOutputStream(this.backingFile)); 
his.bucket - bucket; 

his.key - key; 


Cb ct 


GOverride 

public void write(int b) throws IOException { 
this.bufferedOutputStream.write (b); 

} 


GOverride 

public void write(byte[] b) throws IOException ( 
this.bufferedOutputStream.write (b); 

} 
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GOverride 

public void write(byte[] b, int off, int len) throws 
IOException ( 
this.bufferedOutputStream.write(b, off, len); 

j 


GOverride 
public void flush() throws IOException ( 
if(this.bufferedOutputStream !- null)( 


this.bufferedOutputStream.flush(); 
j 
j 


GOverride 
public void close() throws IOException ( 


if(this.bufferedOutputStream !- null)( 
this.bufferedOutputStream.close(); 


} 


try 1 
PutObjectRequest putObjectRequest - new 
PutObjectRequest(bucket, key, backingFile); 
putObjectRequest.setCannedAcl (CannedAccessControlList.Private); 


s3Client.putObject (putObjectRequest); 
j 


catch(AmazonServiceException ase)( 
ase.printStackTrace(); 


} 


} 

现在 ， 我 们 可 以 继承 Filesystem 类 ， 并 实现 需 重 写 的 方法 。 以 下 代码 片段 给 出 了 类 定义 和 
重 写 后 的 initialize 方 法 。 initialize 获 取 文 件 或 目录 的 URI 和 Hadoop Configuration 对 
象 。 接 着 ， 基 于 配置 文件 中 的 访问 密 钥 和 机 密 密 钥 构建 amazonS3client。 如 上 所 述 ， 这 些 配置 
值 来 自 于 core-site.xml 文 件 和 有 覆盖 它 的 文件 。 


我 们 定义 了 属性 fs .s3mh.access.key 和 fs.s3mh.secret .key ,分 别 包 含 访问 密 钥 和 机 密 
255]. 在 构建 mazonS3client 对 象 之 前 , 我 们 使 用 对 象 BasicAWscredentials 封 装 认 证 信息 。 


getScheme 和 getUri 也 被 重 写 了 。 对 于 我 们 实现 的 文件 系统 ， 我 们 使 用 s3mh 作 为 scheme。 
我 们 的 文件 系统 类 的 类 名 是 s3NFilesystem， 意 味 着 我 们 会 使 用 Amazon S3 原 生 对 象 模 型 。 


package MasteringHadoop; 


import com.amazonaws.AmazonServiceException; 
import com.amazonaws.auth.BasicAWSCredentials; 
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import 
import 
import 
import 
import 
import 


import 
import 


import 


public 


com.amazonaws.services.s3.AmazonS3Client; 
com.amazonaws.services.s3.model.*; 
org.apache.hadoop.conf.Configuration; 
org.apache.hadoop.fs.*; 
org.apache.hadoop.fs.permission.FsPermission; 
org.apache.hadoop.util.Progressable; 


java.io.*; 
java.net.URI; 


java.util.ArrayList; 


class S3NFileSystem extends FileSystem ( 


private URI uri; 

private AmazonS3Client s3Client; 
private Configuration configuration; 
private String bucket; 


public S3NFileSystem() ( 


super(); 


GOverride 
public void initialize(URI name, Configuration conf) throws 


IOException ( 
super.initialize(name, conf); 
this.uri = URI.create(name.getScheme() + "://" + 


name.getAuthority()); 


String accessKey - conf.get("fs.s3mh.access.key"); 
String secretKey - conf.get("fs.s3mh.secret.key"); 


System.out.println("Access Key: " + accessKey); 


s3Client = new AmazonS3Client (new 
BasicAWSCredentials(accessKey, secretKey)); 


this.bucket - name.getHost(); 
if (!s3Client.doesBucketExist(this.bucket)) ( 


throw new IOException("Bucket " « this.bucket + " does 
not exist !"); 


this.configuration - conf; 


GOverride 
public String getScheme() ( 


return "s3mh"; 
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GOverride 
public URI getUri() ( 
return uri; 


} 


接着 ,我 们 重 写 open、create 和 delete 方 法 。 我 们 不 支持 append 和 rename 方 法 。S3 里 ， 
通过 先 复制 然后 再 调用 delete 操 作 来 实现 rename。open 方 法 返回 FSsDataInputStream 对 象 ， 
之 前 我 们 已 经 看 过 这 个 类 的 实现 。S3 有 文件 夹 ( folder ) 的 概念 ， 但 是 在 文件 系统 中 文件 夹 无 法 
转换 成 实际 的 对 象 , 且 其 长 度 为 0。 自 定义 实现 后 的 FSDataInputStream 对 象 需要 长 度 (length ) 
参数 ， 它 的 值 来 源 于 getFileStatus 方 法 。delete 方 法 从 S3 中 删除 一 个 文件 对 象 。 对 于 目录 的 
delete 调 用 会 被 忽略 ， 因 为 它们 是 伪 对 象 ( pseudo-object ): 


GOverride 

public FSDataInputStream open(Path path, int i) throws 
IOException ( 
FileStatus fs - getFileStatus (path); 
return new FSDataInputStream(new 

S3NFsInputStream(this.s3Client, this.configuration, 
this.bucket, pathToKey(path), fs.getLen())); 
} 


GOverride 
public FSDataOutputStream create(Path path, FsPermission 
fsPermission, boolean b, int i, short i2, long 1, 
Progressable progressable) throws IOException ( 
String key - pathToKey (path); 
return new FSDataOutputStream(new 
S3NFsOutputStream(this.s3Client, this.configuration, 
this.bucket, key), null); 
} 


GOverride 
public FSDataOutputStream append(Path path, int i, 
Progressable progressable) throws IOException ( 
throw new IOException("Append functionality is not 
supported"); 
} 


GOverride 
public boolean rename(Path path, Path path2) throws 
IOException ( 
throw new IOException("Rename is copy followed by 
delete"); 
} 


GOverride 
public boolean delete(Path path, boolean b) throws IOException 


{ 
FileStatus fs = getFileStatus (path); 
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if (b) ( 
throw new PathIOException("Recursive delete is not supported"); 


) 


if (!fs.isDirectory()) ( 
s3Client.deleteObject(this.bucket, pathToKey (path)); 
} 


return false; 


在 以 下 代码 片段 中 ， 重 写 后 的 1iststatus 方 法 会 列 出 给 定 目录 下 的 所 有 对 象 。 首 先 会 创建 
一 个 ListobjectRequest 对 象 ， 然后 AmazonS3Client 会 检索 对 象 的 汇总 信息 。 在 返回 结果 之 
前 ,会 从 汇总 信息 中 抓 取 元 数据 ， 然 后 保存 在 Filestatus 对 象 中 。AWS 能 批量 罗列 对 象 。 在 本 
WE, 我 们 批量 罗列 1000 个 文件 。 如 果 对 象 的 数量 大 于 这 个 数字 , 那么 只 取 前 1000 个 对 象 。 在 实 
际 生产 环境 中 的 代码 ， 会 批量 检索 所 有 对 象 。 


另 一 个 需 重 写 的 重要 方法 是 getFilestatus 方 法 。 它 获取 一 个 路 径 ， 并 为 此 路 径 返 回 单个 
FileStatus 对 象 。 路 径 可 以 是 文件 夹 或 文件 。 方法 中 还 使 用 了 辅助 方法 ， 如 pathToKey 方 法 返 
回路 径 对 象 中 的 键 ，isADirectory 方 法 基于 对 象 的 名 字 和 大 小 判断 其 是 否 是 目录 。 


@Override 


public FileStatus[] listStatus (Path path) throws 
FileNotFoundException, IOException { 


ArrayList«FileStatus» returnList = new ArrayList<>(); 
String key = pathToKey (path); 

FileStatus fs = getFileStatus (path); 
if(fs.isDirectory ())( 


if(!key.isEmpty())t 
key = key + "/"; 
} 


ListObjectsRequest listObjectsRequest = new 
ListObjectsRequest(this.bucket, key, 
null, "/", 1000); 
ObjectListing objectListing - 
s3Client.listObjects(listObjectsRequest); 


for(S3O0bjectSummary summary : 
objectListing.getObjectSummaries())( 


FileStatus fileStatus; 
if(isADirectory(summary.getKey(), 
summary.getSize()))( 
fileStatus - new FileStatus(summary.getSize(), 
true, 1, 0, 0, new Path("/" + key)); 


else{ 
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fileStatus = new FileStatus(summary.getSize(), 
false, 1, 0, 0, new Path("/" + key)); 
j 
returnList.add(fileStatus); 
j 
j 
elset 
returnList.add(fs); 
j 
return returnList.toArray (new 
FileStatus[returnList.size()]); 
} 
@Override 
public void setWorkingDirectory (Path path) {} 
@Override 
public Path getWorkingDirectory() {return null; } 
@Override 
public boolean mkdirs (Path path, FsPermission fsPermission) 
throws IOException ( return false;} 
@Override 
public FileStatus getFileStatus (Path path) throws IOException 
{ 
String key = pathToKey (path); 
System.out.println("Key : " + key); 
System.out.println("Bucket : " + this.bucket) ; 
if(key.isEmpty ())í( 


} 


throw new IOException("File not found."); 


ObjectMetadata objectMetadata - 
s3Client.getObjectMetadata(this.bucket, key); 
if(isADirectory(key, objectMetadata.getContentLength()))( 
return new FileStatus(0, true, 1, 0, 0, path); 


} 


return new FileStatus(0, false, 1, O0, 
objectMetadata.getLastModified().getTime(), path); 


) 


private String pathToKey (Path path) ( 
return path.toUri().getPath().substring(1); 


private boolean isADirectory(String name, long size) ( 
return 


&& 
&& 


Iname.isEmpty() 
name.charAt(name.length() - 1) == '/' 
Bize == DL 
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旦 编译 完 所 有 的 代码 片段 ， 并 将 其 归 入 到 JAR 文 件 中 ， 这 个 JAR 文 件 就 可 以 放置 在 HDFS 
库 目 录 下 。 以 下 片段 显示 了 core-site.xml 文 件 中 所 需 的 配置 信息 ， 这 些 信息 用 于 为 文件 系统 驱动 
器 指定 JAR 文 件 ， 同 时 也 标明 了 实现 类 所 需 的 认证 信息 。 现 在 可 以 执行 任何 HDFS 命 令 ， 只 要 在 
路 径 上 指明 scheme s3mh, 便 能 调用 这 个 Filesvstem 实 现 。 


<!-- 省 略 基 于 IAM 角 色 的 认证 --> 


«property» 

«name»fs.s3mh.access.key«/name» 

«value»«!-- 你 的 亚马逊 AWS 的 访问 密 钥 ---«-/value» 
</property> 


<!-- 省 略 基 于 IAM 角 色 的 认证 --> 


«property» 

«name»fs.s3mh.secret.key«c/name» 

«value»s«!-- 你 的 亚马逊 AWS 的 机 密 密 钥 ----/value» 
«/property» 


«1-- Hadoop 加 载 我 们 的 文件 系统 的 驱动 所 必需 的 配置 --> 
«property» 
«name»fs.s3mh.impl«/name» 
«value»MasteringHadoop.S3NFileSystem«/value» 
«/property» 
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就 MapReduce 的 工作 负载 而 言 ，HDFS 是 杰出 的 文件 系统 。 但 是 其 顺序 访问 模式 和 不 兼容 
POSIX 接 口 等 特性 ， 使 其 在 某 些 场景 下 使 用 起 来 很 繁琐 。Hadoop 人 允许 用 户 扩展 HDFS 或 提供 向 入 
式 替 代 品 。 

本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 通过 扩展 HDFS 或 作为 嵌 人 式 的 蔡 代 品 直接 替换 HDFS, 已 经 涌现 了 很 多 HDFS 的 实现 。 其 
中 一 些 扩展 范例 有 IBM 的 CephFS、MapRFS、GPFS， 以 及 DataStax 的 Cassandra。 

口 Hadoop 中 可 以 方便 地 使 用 亚马逊 S3 存 储 服务 接口 。Hadoop 也 集成 了 S3 原 生存 储 文件 系统 
接口 和 块 存储 文件 系统 接口 。 

口 通过 扩展 Filesystem 抽 象 类 ， 可 以 使 Hadoop 与 其 他 文件 系统 融合 。FSDataInput- 
stream 和 FSDataOutputStream 对 象 分 别 封装 了 底层 文件 系统 的 输入 流 和 输出 流 。 

口 通过 在 Hadoop Configuration 文 件 和 类 中 进行 配置 ，Hadoop 底 层 文件 系统 的 安全 和 访 
问 控制 机 制 无 需 修改 就 能 保持 原样 。 


下 一 章 中 ,通过 了 解 HDFS 联 合 ， 我 们 会 继续 学 习 HDFS， 以 及 它 在 Hadoop 1.X 到 2.X 之 间 发 
生 的 变化 。 


HDFS 联 合 


在 Hadoop 早 期 版 本 中 ，HDFS 的 NameNode 组 件 存在 单 点 故障 的 问题 。 之 后 的 版 本 引入 了 从 
NameNode， 作 为 主 NameNode 的 备份 。 直 至 Hadoop 2.X，NameNode 只 能 处 理 单个 命名 空间 ， 这 
造成 了 伸缩 性 较 差 ， 以 及 HDFS 多 租户 环境 下 难以 隔离 的 问题 。 可 伸缩 性 和 隔离 性 是 Hadoop 企 业 
部 署 中 最 迫切 需要 的 两 个 特性 ,因为 大 多 数 公司 在 他 们 的 团队 之 间 都 共享 基础 设施 ， 而 各 个 团队 
对 于 基础 设施 的 可 用 程度 和 授权 意愿 又 不 尽 相同 。 


HDFS 联 合作 为 一 种 特性 ， 使 Hadoop 能 够 管理 多 个 命名 空间 ， 这 样 在 共享 集群 场景 下 使 用 起 
来 更 方便 。 这 个 特性 隔离 了 存储 和 命名 空间 管理 。 类 似 于 YARN， 这 样 有 助 于 其 他 应 用 和 用 例 迁 
移 到 HDFS 上 ， 从 而 使 Hadoop 成 为 一 个 更 通用 的 集群 计算 平台 ， 而 不 是 一 个 只 支持 MapReduce 的 


MZ 
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在 本 章 ， 我 们 会 了 解 到 : 


口 HDFS 联 合 的 必要 性 

口 学 习 HDFS 联 合 及 其 架构 

口 理解 部 署 联合 NameNode 的 步骤 

OQ 理解 活跃 (active) NameNode 的 备份 与 恢复 功能 
口 学 习 NameNode 高 可 用 性 相关 的 策略 和 命令 

a 了解 HDFS 中 一 些 实用 工具 和 命令 

口 了解 MapReduce 环 境 中 HDFS 的 块 放置 策略 


10.4 旧版 HDFS 架构 的 限制 
旧版 HDFS 架 构 中 有 如 下 两 个 主要 组 件 。 


口 命名 空间 (Namespace); 这 个 HDFS 组 件 负责 构建 块 ， 如 目录 、 文 件 和 实际 的 文件 块 。 命 
名 空间 组 件 支持 在 构建 的 块 上 进行 创建 .删除 、 列 表 和 更 新 /修改 操作 , 它 运行 在 NameNode 
守护 进程 中 。 
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O 块 存储 服务 ( Block Storage Service): 这 个 HDFS 组 件 负 责 管理 文件 块 。 块 存储 组 件 分 布 
在 NameNode 和 DataNode 上 。DataNode 上 的 块 存储 服务 负责 集群 中 本 地 机 器 的 块 存储 ,为 
块 提供 读 写 服务 。NameNode 上 的 块 存储 服务 具有 如 下 功能 。 


m 负责 DataNode 的 注册 、 监 控 和 健康 报告 。 

u 解析 DataNode 发 来 的 健康 报告 ， 将 文件 块 地 址 缓存 到 内 存 中 。 

m 进行 块 级 别 的 创建 、 删 除 、 列 表 和 更 新 操作 。 如 我 们 之 前 所 见 ， 命 名 空间 组 件 处 理 文 
件 级 别 的 这 些 操作 。 

u 简化 副本 放置 的 算法 和 启发 式 方法 。 它 可 以 管理 复制 块 的 放置 ， 还 能 补充 复制 不 足 的 
块 和 删除 复制 过 多 的 块 。 


下 图 展示 了 老 版 HDFS 的 架构 : 


| 块 管理 | 


广 块 存储 服务 


DataNode 


存储 
这 个 架构 有 许多 限制 ,具体 如 下 所 示 。 


口 如 图 所 见 , 很 明显 块 存储 服务 组 件 侵 人 了 NameNode， 这 导致 命名 空间 和 块 存储 服务 之 间 
产生 了 紧 厢 合 ， 所 有 对 块 管理 函数 的 调用 必须 通过 NameNode， 而 DataNode 无 法 成 为 一 个 
独立 的 块 存储 服务 。 

O 这 个 架构 只 允许 存在 单个 NameNode。 这 个 NameNode 把 所 有 目录 、 文 件 和 块 级 别 的 元 数 
据 都 存 于 内 存 中 。 不 同 于 DataNode，NameNode 无 法 水 平 扩展 ， 只 能 垂直 扩展 ， 也 就 是 给 
NameNode 所 运行 的 机 器 添加 更 多 的 内 存 。NameNode 的 内 存 限制 了 集群 的 可 伸缩 性 。 

口 单个 NameNode 能 够 管理 集群 中 大 约 60 K 的 任务 。 但 是 ， 随 着 Hadoop 堆 栈 的 变化 和 YARN 
的 引入 ， 任 务 数 能 达到 100 K 其 至 更 多 。 此 类 任务 的 激增 给 NameNode 请 求 服务 功能 带 来 
了 巨大 压力 ， 单 个 NameNode 可 能 无 法 在 处 理 如 此 多 请 求 的 同时 不 影响 任务 的 性 能 。 

OQ 较 大 的 公司 出 于 保密 性 、 性 能 、 可 用 性 等 方面 的 考虑 ， 需 要 在 公司 内 不 同 团队 间 进 行 一 
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定 程 度 的 隔离 ， 而 单个 命名 空间 无 法 满足 上 述 任何 一 点 要 求 。 共 享 命名 空间 需要 严密 的 

安全 措施 ， 而 性 能 和 可 用 性 很 大 程度 上 取决 于 集群 中 已 运行 的 其 他 服务 的 工作 负载 。 
要 突破 这 些 限制 ， 就 需要 把 命名 空间 从 块 存储 服务 中 分 离 出 来 。 特 别 是 在 多 租户 环境 下 , 也 
需要 能 运行 多 个 NameNode 实 例 。 通 过 负载 均衡 手段 ,水平 扩展 后 的 NameNode 也 有 助 于 提高 性 能 。 


10.2 HDFS 联合 的 架构 


HDFS 联 合 的 关键 特性 是 允许 集群 中 运行 多 个 NameNode。 这 些 NameNode 是 独立 的 ， 彼 此 没 
有 任何 依赖 ， 但 却 共 享 DataNode。 之 所 以 称 这 些 NameNode 为 联合 关系 ， 是 因为 它们 可 以 独立 运 
行 ， 无 需 互 相 协 调 。 


每 个 DataNode 都 向 集群 中 的 所 有 NameNode 发 送 心跳 和 块 报 告 信息 。DataNode 也 接受 来 自 所 
有 NameNode 的 命令 ， 它 们 是 集群 中 最 常见 的 共享 存储 资源 ， 当 然 仍 运行 在 普通 硬件 上 。 但 是 ， 
它们 为 不 同 的 NameNode 提 供 服 务 ， 进 而 实现 不 同 的 命名 空间 管理 。 在 多 租户 环境 下 ， 这 些 独 立 
的 命名 空间 保证 了 隔离 性 。 通 过 运行 多 个 NameNode, 集群 可 以 水 平 扩展 , 而 且 对 这 些 NameNode 
的 请 求 可 以 被 负载 均衡 。 


下 图 展示 了 集群 HDFS 联 合 的 架构 : 


广 块 存储 服务 


EHE EST EDS 


共享 的 DataNode 


一 


存储 


块 联合 正 是 基于 块 池 〈block pool) 的 概念 而 提出 的 。 一 个 块 池 是 一 组 块 集合 ， 隶 属于 单个 
NameNode。DataNode 所 存储 的 块 可 能 属于 不 同 的 块 池 。 每 个 块 池 是 独立 的 ， 管 理 一 个 块 池 不 会 
影响 其 他 任何 块 池 。 命 名 空间 基于 它 的 块 池 可 以 独立 地 产生 Block ID. 
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一 个 命名 空间 连同 其 块 池 称 为 命名 空间 卷 (namespace volume )。 当 一 个 NameNode 退 出 集群 
或 删除 一 个 命名 空间 时 ，DataNode 会 删除 与 该 命名 空间 卷 块 池 相关 的 所 有 块 。 

另 一 个 参数 ClusterId 用 于 标识 集群 中 的 所 有 节点 。 集 群 中 任何 新 加 入 的 NameNode 都 会 获得 
Cluster ID 来 正确 识别 所 属 集 群 。 这 个 参数 可 以 手工 指定 或 自动 生成 ， 但 默认 是 自动 生成 。 


10.2.1 HDFS 联 合 的 好 处 
HDFS 联 合 克 服 了 单 点 NameNode 的 限制 ， 其 优点 如 下 所 示 。 


口 最 重要 的 优点 是 赋予 了 NameNode 水 平 扩 展 的 能 力 ， 使 得 拥有 大 量 小 文件 的 集群 获 益 菲 
浅 。 每 个 文件 都 会 占有 NameNode 的 内 存 来 存放 其 元 数据 。 基 于 不 同 的 功能 或 组 织 部 门 ， 
命名 空间 现在 被 划分 为 多 个 命名 空间 。 这 样 负载 可 分 布 在 许多 NameNode 上， 而 不 是 集中 
在 单个 NameNode 上 。 

口 扩展 读 写 吞吐 量 这 个 优势 是 单 点 NameNode 无 法 做 到 的 。 现 在 公司 可 以 在 不 同 的 
NameNode 中 划分 命名 空间 ， 从 而 把 吞吐 量 维持 在 理想 水 平 。 运 行 在 集群 上 的 工作 负载 类 
型 可 用 于 确定 NameNode 的 数量 ， 这 是 部 署 HDFS 联 合 的 必 备 条 件 。 

口 拥有 不 同 的 NameNode 和 命名 空间 使 隔离 变 得 轻松 简单 。 公 司 现 在 可 以 隔离 不 同 部 门 的 数 
据 集 ， 也 可 基于 功能 对 NameNode 进 行 划 分 ， 如 开发 、 测 试 或 生产 。 所 有 数据 可 多 路 复 用 
到 一 批 DataNode 上， 从 而 提高 了 共享 效率 。 当 在 集群 中 执行 满足 不 同 需 求 的 作业 时 ， 隔 
离 性 能 够 保证 NameNode 不 会 成 为 性 能 瓶颈 。 例 如 ， 如 果 有 一 个 作业 造成 NameNode 过 载 ， 
这 并 不 会 影响 另 一 个 作业 ， 只 要 这 些 作业 所 需 数据 位 于 不 同 的 命名 空间 中 。 

口 HDFS 联 合 功 能 还 能 把 块 存储 服务 视 为 通用 块 存储 。 抽象 化 块 池 有 助 于 构建 具有 不 同 特点 
的 新 文件 系统 或 HDFS API。 这 种 存储 通用 化 特性 可 提高 企业 集群 中 现 有 硬件 的 使 用 率 ， 
从 而 节省 企业 成 本 。 

口 HDFS 联 合 架 构 简 单 性 的 另 一 个 体现 是 其 向 后 兼容 的 特性 。 现 有 单 点 NameNode 部 署 不 会 
被 破坏 ， 它 们 成 为 联合 方法 中 的 一 个 特例 。 为 了 支持 这 个 特性 ， 大 多 数 对 Hadoop 实 现代 
人 码 的 修改 实际 上 都 集中 在 DataNode 。 从 Hadoop 测 试 角度 来 看 ， 这 么 做 有 助 于 保持 整个 
NameNode 的 稳定 。DataNode 还 有 一 个 额外 的 间接 层 ， 用 来 指明 块 所 在 的 块 池 。 


10.2.2 ”部 署 联合 NameNode 


在 本 节 ， 我 们 会 了 解 到 如 何 部 署 多 个 NameNode。 要 尝试 这 些 步 又 ， 你 至 少 需要 两 台 不 同 地 
址 的 机 器 。 联 合 部 署 的 配置 是 向 后 兼容 的 ， 支 持 以 前 安装 的 单 点 NameNode。 


为 了 支持 联合 ， 引 入 了 NameServiceId。 从 备份 和 检查 节点 属于 特定 的 NameServiceId。 配 置 
中 指定 的 NameNode 和 相关 组 件 的 所 有 属性 都 需 以 NameServiceId 作 为 后 绥 。 
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重要 的 配置 步骤 如 下 所 示 。 


(1) 为 集群 中 的 不 同 NameNode 指 定 NameServiceId。 可 以 在 配置 中 添加 afs .nameservices 
属性 来 指定 ， 它 的 值 是 罗列 所 有 NameServiceId 并 以 逗号 相隔 。 


(2) 与 特定 NameNode 相 关 的 所 有 其 他 属性 需 以 对 应 的 NameServiceId 为 前 级 。 这 个 
NameServiceId 必 须 出 现在 afs .nameservices 属 性 中 指定 的 NameServiceId 列 表 中 。 


三 


(3) 可 使 用 bin/hdfs namenode -format [-clusterid clustered] 来 格式 化 NameNode。 
如 果 不 指定 clusterIQ， 那 么 会 自动 生成 一 个 ID。 


(4) 所 有 其 他 的 NameNode 都 可 以 使 用 与 第 3 步 中 同样 的 命令 进行 格式 化 ， 但 是 此 时 必须 指定 
参数 clusteridq。 如 果 没 有 指定 参数 clusteridq， 那 么 NameNode 之 间 不 会 进行 联合 。 现 在 ， 这 


个 命令 是 pin/hdfs namenode -format -clusterid «specify clusterid that was 


given in the previous step», 


(5) 旧版 Hadoop 可 升级 为 新 版 Hadoop。 升级 后 ,可 使 用 bin/hdfs namenode -config «new 


configuration directory» -upgrade -clusterid <clusterid> 启 动 NameNode。 


(6) 往 系统 中 添加 另 一 个 NameNode 很 简单 ， 只 需 为 新 NameNode 对 应 添加 新 的 配置 参数 ， 然 
后 把 新 配置 分 发 到 集群 即 可 。 重要 的 参数 有 NameServiceId 和 以 NameServiceld 为 后 级 的 NameNode 
相关 属性 。 配 好 后 ，NameNode 就 可 以 启动 了 。 现 在, 需 让 DataNode 识 别 新 加 入 的 NameNode， 可 
以 通过 命令 bin/hdfs dfadmin -refreshNameNode <datanode host and port> 来 完成 。 
必须 对 所 有 的 DataNode 执 行 这 个 命令 ， 这 个 命令 会 为 新 NameNode 生 成 块 存储 层 。 


以 下 代码 片段 展示 了 一 个 hdfs-site.xml 样 例 配 置 文件 ， 其 中 配置 了 两 个 NameNode。 
NameServiceld 分 别 为 ns1 和 ns2: 


<property> 
«name»dfs.namenode.name.dir.ns1«/name» 
«value»[path to namenode store]«/value» 
«description»Path on the local filesystem where the NameNode 
Stores the namespace and transaction logs 
persistently.«/description» 
«/property» 
«property» 
«name»dfs.namenode.name.dir.ns2«/name» 
«value»[path to namenode store]«/value» 
«description»Path on the local filesystem where the NameNode 
Stores the namespace and transaction logs 
persistently.«/description» 
«/property» 
«property» 
«name»dfs.nameservices«/name» 
«value»ns1,ns2«/value» 
«/property» 
«property» 
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«name»dfs.namenode.rpc-address.ns1«/name» 
«value»[ip:port]«/value» 

«/property» 

«property» 
«name»dfs.namenode.http-address.ns1«/name» 
«value»[ip:port]«/value» 

«/property» 

«property» 


«name»dfs.namenode.secondaryhttp-address.ns1«/name» 
«value»[ip:port]«/value» 

«/property» 

«property» 
«name»dfs.namenode.rpc-address.ns2«/name» 
«value»[ip:port]«/value» 

«/property» 

«property» 
«name»dfs.namenode.http-address.ns2«/name» 
«value»[ip:port]«/value» 

«/property» 

«property» 
«name»dfs.namenode.secondaryhttp-address.ns2«/name» 
«value»[ip:port]«/value» 

</property> 


10.3 HDFS 高 可 用 性 


NameNode 是 HDFS 命 名 空间 的 核心 。 只 要 是 使 用 HDFS 的 集群 ， 其 可 用 性 都 和 NameNode 的 
可 用 性 息息相关 。 


10.3.1 含 查 节点 和 备份 节点 


Hadoop 1.X 引 入 了 从 NameNode 的 概念 。 从 NameNode 可 以 抵御 灾难 , 因为 当 革 个 NameNode 
发 生 了 故障 ， 从 NameNode 可 以 恢复 这 个 NameNode。 从 NameNode 这 个 名 称 其 实 是 个 误 称 ， 它 
只 是 个 冷 备 ， 自 身 无 法 处 理 请 求 ， 但 是 当 NameNode 遇 到 故障 的 时 候 ， 就 可 以 由 从 NameNode 读 
取 数 据 。 


NameNode 把 所 有 HDFS 的 更 新 写 入 原生 文件 系统 里 的 edits 日 志文 件 。 这 个 日 志文 件 只 以 追加 
的 形式 写 人 信息 。NameNode 还 拥有 男 一 个 文件 ， 称 为 fsimage 文 件 ， 它 包含 了 HDFS 的 镜像 。 当 
NameNode 启 动 后 ， 会 首先 读 取 edits 文 件 ， 然 后 一 行 一 行 地 将 所 有 edits 信 息 合并 人 fsimage 文 件 。 
在 这 个 阶段 ，HDFS 是 只 读 的 。 我 们 称 NameNode 人 处 于 安全 模式 ( safe mode )。 一 旦 NameNode 接 
受到 了 DataNode 发 来 的 块 健康 报告 ， 就 会 退出 安全 模式 。 只 有 在 NameNode 确 认 HDFS 健 康之 后 ， 
才 人 允许 对 HDSF 进 行 写 入 。 在 开始 正常 服务 之 前 ，NameNode 会 生成 一 个 edits 空 文件 和 更 新 后 的 
fsimage 文 件 。 


NameNode 运 行 时 间 越 长 ，edits 文 件 就 越 大 ， 这 会 直接 导致 NameNode 重 启 时 间 变 长 。 从 


从 NameNode、 
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NameNode 会 定期 获取 并 合并 fsimage 和 edits 文 件 。 一 般 来 说 , 为 了 尽 最 大 可 能 容 灾 ,从 NameNode 
应 运行 在 不 同 的 机 器 上 。 当 故障 恢复 后 ，NameNode 可 以 向 从 NameNode 查 询 fsimage 和 edits 文 件 。 
当 保 存 检查 点 的 时 候 ， 从 NameNode 会 模仿 NameNode 的 目录 结构 ， 这 样 故 障 恢复 后 ， 可 以 简化 
NameNode 读 取 数 据 。 

另 一 个 引入 的 概念 是 检查 节点 (checkpoint node )。 其 功能 类 似 于 从 NameNode， 但 还 具有 另 
一 个 附加 功能 。 检 查 节 点 不 仅 会 定期 地 从 NameNode 那 里 获取 Aimage 和 edits 文 件 的 更 新 ， 而 且 还 
合并 edits 内 容 到 fsimage 文 件 里 并 上 传 到 NameNode。 这 有 助 于 NameNode 迅 速 从 故障 中 恢复 。 检查 
节点 可 视 为 具有 上 传 更 新 到 NameNode 功 能 的 从 NameNode。 再 提醒 一 次 ， 保 存 后 的 检查 点 
( checkpoint ) 具有 和 NameNode 同 样 的 目录 结构 。 

检查 节点 可 以 通过 以 下 命令 启动 : 


hdfs namenode -checkpoint 


配置 文件 中 的 dfs.namenode. backup.address 和 d£s.namenode. backup.http- 
address 属 性 分 别 用 于 指定 检查 节点 的 地 址 和 其 HTTP 地 址 。 

备份 节点 比 检查 节点 和 从 NameNode 更 高 效 。 它 由 NameNode 实 时 获取 更 新 并 更 新 自身 的 
fsimage 和 edits 副 本 文件 。 男 一 方面 ， 检 查 节 点 和 从 NameNode 会 从 活路 NameNode 下 载 fsimage 和 
edits 文 件 。 检 查 节 点 不 允许 和 备份 节点 一 起 运行 。 备 份 节 点 的 内 存 需 求 量 和 NameNode 一 样 ， 
为 它 保存 了 NameNode 所 需 保 存 的 所 有 信息 。 

备份 节点 可 以 用 以 下 命令 启动 : 

hdfs namenode -backup 


备份 节点 的 配置 参数 和 检查 节点 的 一 样 。 


10.3.2 ”高 可 用 性 一 一 共享 edits 


在 第 1 章 中 ， 我 们 简要 介绍 了 如 何 使 用 一 组 JournalNode 和 NFS 的 策略 来 实现 NameNode 高 可 用 
性 。 有 了 热 备 后 ， 可 立即 切换 到 备份 NameNode， 使 其 成 为 活跃 NameNode， 这 是 高 可 用 性 ( high 
availability, HA ) 的 关键 所 在 。 热 备 节 点 维护 了 有 关 活跃 NameNode 足 够 多 的 信息 ， 所 以 它 能 迅速 
进行 故障 转移 。 热 备 节 点 同时 也 会 设置 检查 点 (check-pointing ) 来 帮助 灾难 恢复 。 


NameNode 高 可 用 性 背后 的 总 体 策略 是 在 活跃 NameNode 和 热 备 NameNode 之 间 共 享 edits 文 
件 。 这 可 通过 Journal 管 理 者 ( Quorum Journal Manager, QJM ) 利用 一 组 Journal 节 点 来 实现 ， 也 
可 使 用 NFS 共 享 来 达到 同样 效果 。 


Hadoop LIF LA F PIPP BEPERPBUN 


口 手动 转移 : 在 这 里 ，Hadoop 集 群 管理 员 可 以 执行 命令 让 热 备 成 为 活路 节点。 因为 这 是 决 
定性 的 操作 ， 所 以 需要 的 时 间 大 约 为 5 秒 。 使 用 的 命令 如 下 所 示 。 


10.3 HDFS 高 可 用 性 197 


口 


hdfs haadmin -failover «standby-namenode» «active-namenode» 


自动 转移 : 如 果 有 系统 监控 活跃 NameNode 的 健康 度 ， 那 么 监控 系统 可 能 会 找到 足够 的 证 
据 ， 并 依据 这 些 证 据 在 活跃 NameNode 和 热 备 NameNode 之 间 进 行 自动 切换 。 这 个 方法 是 
启发 式 的 ， 并 且 故 障 转移 进程 可 能 不 是 几 秒 、 十 几 秒 的 事情 ， 而 会 需要 大 约 数 十 秒 。 工 
具 Zookeeper 连 同 ZKFailoverController 模 块 可 以 协助 自动 转移 。 


如 果 ZKFailoverController 模 块 遇 到 了 故障 ， 那 么 活跃 和 热 备 NameNode 可 能 都 会 认为 自己 处 
于 活跃 状态 ， 这 种 情况 称 为 脑 裂 现象 ( split-brain scenario )。 脑 裂 现象 会 使 命名 空间 处 于 不 一 臻 
的 状态 , 因为 两 个 NameNode 会 产生 有 冲突 的 变化 。 解决 这 个 问题 的 办 法 是 让 活跃 NameNode 停 止 
对 系统 产生 变化 。QJM 对 于 故障 转移 的 策略 是 构建 起 一 组 JournalNode 作 为 围栏 ， 并 仅 人 允许 单个 
NameNode 向 这 些 节点 写 人 信息 。 


10.33 HDFS 实 用 工具 
下 面 列 出 一 些 用 于 检查 HDFS 健 康 度 的 实用 工具 。 


口 


口 


口 


均衡 器 (rebalancer ): DataNode 中 的 块 分 布 可 能 不 均匀 。 如 果 有 新 的 DataNode 加 入 集群 ， 
可 能 就 会 发 生 倾 斜 分 布 的 现象 。 为 了 帮助 管理 员 查 看 分 布 情况 和 重新 分 布 块 ，Hadoop 命 
邻 中 提供 了 均衡 器 (balancer ) 功能 ， 如 下 所 示 : 


hadoop balancer [-threshold threshold] 


文件 系统 检查 fsck ): 与 原生 文件 系统 类 似 ，fsck 命 令 会 遍历 文件 系统 中 的 文件 并 提供 
一 份 有 关 文 件 和 块 的 健康 报告 。 但 不 同 于 原生 文件 系统 中 的 fsck 工 具 ，Hadoop 的 fsck 
工具 不 会 进行 任何 操作 ， 纯 粹 是 一 个 报告 工具 。HDFS 中 的 大 多 数 错误 一 般 都 由 Hadoop 
维护 ， 即 


hadoop fsck 


导入 检查 点 (import checkpoint ): 可 以 为 NameNode 导 入 来 源 于 备份 节点 和 检查 节点 的 检 
查 点 。 这 些 节 点 所 存 检查 点 的 目录 结构 都 与 NameNode 一 致 。 可 通过 配置 属性 afs . 
namenodqe .checkpoint.aqir 来 指明 检查 点 的 所 存 目 录 ， 并 在 启动 NameNode 时 用 


-importcheckpoint 标 志 。 


10.34 ”三 层 与 四 层 网 络 拓扑 


Hadoop 拓 扑 一 般 采 用 三 层 架 构 ， 如 下 图 所 示 。 层 次 结构 中 的 叶 节 点 是 数据 节点 。 数 据 节 点 组 
成 机 架 (rack )， 机 架 形成 数据 中 心 。Hadoop 集 群 也 可 以 通过 广域网 (WAN ) 跨 多 个 数据 中 心 互 


连 。 
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随 着 虚拟 化 的 发 展 , 现在 一 个 物理 机 可 以 运行 多 个 虚拟 机 节点 。 这 导致 Hadoop 拓 扑 中 产生 了 
一 个 额外 层 ， 称 为 节点 组 层 ( nodegroup layer )。 相 同 物理 机 上 运行 的 所 有 虚拟 机 都 属于 一 个 节点 
2H, 换言之， 每 个 节点 组 就 是 一 个 虚拟 机 管理 器 。 节 点 组 中 各 节点 间 的 通讯 无 需 通 过 网 络 ， 这 会 
产生 一 些 有 趣 的 块 放置 策略 。 下 图 展示 了 四 层 架 构 。 


10.4 HDFS 块 放 置 策略 


复制 是 HDFS 一 项 重要 功能 。 它 保证 了 数据 的 可 靠 性 ， 避 免 数 据 丢 失 ， 同 时 在 面 对 故 障 时 提 
供 了 高 可 用 性 。 默 认 复制 因子 是 3, 不 过 可 以 通过 配置 参数 dfs .replication 对 这 个 参数 进行 调 
整 。 但 HDFS 不 会 复制 整个 文件 ; 相反 ， 它 会 把 文件 分 成 固定 大 小 的 块 并 分 散 保 存在 集群 中 。 


复制 因子 可 以 在 文件 创建 时 指定 , 也 可 以 在 需要 的 时 候 改变 复制 因子 的 值 。 智能 化 块 放置 是 
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HDFS 最 显著 的 特性 ， 这 个 特性 使 其 区 别 于 其 他 分 布 式 文件 系统 。 放 置 策略 是 机 架 感知 的 ， 能 识 
别 块 存放 的 物理 位 置 。 这 不 仅 有 助 于 容错 ， 而 且 还 能 高 效 利用 网 络 带宽 。 任 何 运 行 在 HDFS 上 的 
计算 模型 都 能 利用 这 些 信息 ， 从 而 最 小 化 网 络 间 所 需 传 输 的 数据 量 。 


个 机 架 是 由 一 堆 机 器 堆 鲜 起 来 的 。 一般 来 说 , 单个 交换 机 为 单个 机 架 内 的 所 有 机 器 提供 服 
Fo 一 个 数据 中 心 由 许多 这 样 的 机 架 组 成 。 机 架 内 的 网 络 融 宽 高 于 机 架 间 的 网 络 囊 宽 , 因此 , 在 
机 架 内 移动 数据 可 能 快 于 机 架 间 移动 数据 。 


NameNode 能 感知 到 DataNode 所 属 的 机 架 。 当 放置 单个 块 的 副本 时 , NameNode 会 决定 每 个 块 
驻 留 在 哪个 机 架 上 。 为 了 提高 容错 性 ，NameNode 可 能 会 把 每 个 块 的 副本 放置 在 不 同 机 架 上 ， 这 
样 能 更 好 地 实现 负载 均衡 ， 并 避免 机 架 故 障 导 致 数据 丢失 。 但 是 ， 因 为 需要 跨越 不 同 的 机 架 ,， 所 
以 写 人 一 个 块 会 花费 额外 的 时 间 。 


当 复 制 因 子 是 3 时 , 默认 的 机 架 放 置 策略 是 : 第 一 个 副本 放置 在 机 架 内 的 节点 上 , 第 二 个 副本 
放置 在 同 机 架 内 的 不 同 节 点 上 , 第 三 个 副本 整个 放置 在 不 同 机 架 的 节点 上 。 一 般 来 说 , 写 的 时 候 ， 
第 一 个 块 会 写 在 (集群 内 的 ) 客户 端 所 在 的 节点 上 。 接 下 去 的 两 个 块 会 写 和 此 机 架 外 相同 的 随机 
节点 上 。 这 有 助 于 提高 写 的 吞吐 量 ， 因 为 写 人 是 本 地 化 的 。 但 是 由 于 三 分 之 二 的 副本 放置 在 相同 
机 架 上 ， 因 此 会 造成 一 定 的 数据 倾斜 。 然 而 ， 这 样 也 并 不 会 影响 可 靠 性 和 可 用 性 ， 因 为 机 架 故 障 
的 概率 远 低 于 节点 故障 的 概率 。 如 果 发 生 了 机 架 故 障 这 种 罕见 情况 ， 位 于 不 同 机 架 上 的 额外 副本 
可 以 容 灾 。 如 果 客 户 端 不 在 集群 中 , 会 随机 选 出 第 一 个 节点 , 然后 把 第 一 个 块 副本 写 入 这 个 节点 。 

当 触发 读 操 作 时 ，NameNode 会 尝试 把 读 操作 指向 最 接近 的 节点 。 选 择 的 先后 顺序 是 : 首先 
在 客户 端 相同 的 节点 上 试 着 读 取 ; 如 果 这 里 不 存在 副本 , 那么 尝试 在 与 客户 端 相同 的 机 架 上 读 取 
副本 ; 如 果 同 机 架 上 的 副本 也 不 存在 , 那么 会 在 相同 数据 中 心 的 另 一 个 机 架 上 尝试 读 取 , XR 
行 ， 就 只 能 再 将 读 取 操作 转移 到 为 一 个 数据 中 心 。 

Hadoop 2.X 的 块 放 置 策略 是 可 插 拔 的 。HDFS-385 作 为 一 个 修复 实现 了 这 项 增强 功能 。 


可 插 拔 的 块 放置 策略 


现在 HDFS 提 供 了 可 揪 拔 的 块 放 置 策略 。 可 重 写 位 于 org.apache.hadoop.hdfs . 
server. blockmanagement 包 中 的 BlockPlacementPolicy 抽 象 类 来 实现 这 个 功能 。 这 个 抽象 
类 有 一 些 需要 重 写 的 方法 。 重 写 方法 chooseTarget 告 诉 HDFS 块 放置 策略 。 重 写 方法 
chooseReplicaTopelete 用 于 判断 是 否 要 删除 特定 的 副本 ， 从 而 让 所 有 的 块 符合 块 放置 策略 。 
第 三 个 重 写 方 法 verifyBlockPlacement 验 证 块 是 否 出 现在 minRacks 上 。 initialize 用 于 初 
始 化 BlockPlacementPolicy 对 象 的 私有 变量 。 


一 日 创建 了 BlockPlacementPolicy 的 派生 类 , 就 可 以 把 它 构建 在 JAR 文 件 中 。 这 个 JAR 文 
件 需 放置 在 Hadoop 类 路 径 中 。 接 着 需要 让 Hadoop 识 别 新 的 块 放置 策略 ， 对 此 hafs-site.xml3 引 
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人 了 新 属性 , 创建 了 配置 项 dfs .block.replicator.classname， 它 的 值 需 包 含 BlockPlace- 
mentPolicy 自 定义 类 的 完整 类 名 ， 配 置 文件 片段 如 下 所 示 : 


<property> 
<name>dfs.block.replicator.classname</name> 
<value><Fully qualified class name of the custom block 
placement implementation class</value> 
</property> 


Hadoop 自 带 两 个 块 放置 策略 派生 类 可 供 使 用 ， 如 下 : 


口 BlockPlacementPolicyDefault 类 提供 的 策略 ， 我 们 在 本 节 已 有 讨论 ; 
口 BlockPlacementPolicyWithNodeGroup 类 处 理 具 有 节点 组 层 的 网 络 拓扑 。 


10.5 小结 


Hadoop 由 计算 层 和 存储 层 组 成 。Hadoop 2.X 用 YARN 蔡 代 了 计算 层 ， 帮 助 其 他 计算 模型 共存 
于 Hadoop 集 群 硬件 。 存 储 层 也 在 向 类 似 目 标 快 速 发 展 。HDFS 联 合 等 相关 特性 使 存储 层 向 通用 化 
发 展 迈 近 了 一 步 。 通 过 实现 块 存储 和 命名 空间 之 间 的 松 耘 合 ， 这 即将 成 为 现实 。 


本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 HDFS 联 合 使 运行 多 个 NameNode 成 为 可 能 。 这 不 仅 有 助 于 隔离 ， 而 且 还 能 通过 负载 均衡 
提高 性 能 。 对 NameNode 进 行 水 平 扩展 也 更 容易 。 

O 抽象 化 的 块 池 促进 了 联合 。 单 个 命名 空间 中 的 块 属于 单个 块 池 。 每 个 块 池 都 被 赋予 唯一 
标识 以 便 寻 址 。 不 同 NameNode 仍 共享 所 有 的 DataNode。 

口 在 Hadoop 2.X 中 ， 有 很 多 选择 可 以 确保 NameNode 从 故障 中 恢复 。 之 前 ， 从 NameNode 是 
唯一 的 选择 ; 而 现在 ， 有 了 检查 节点 和 备份 节点 。 这 三 个 策略 都 保留 了 NameNode 的 目录 

结构 ， 便 于 NameNode 恢 复 。 

O 对 于 Hadoop 网 络 拓扑 ， 现 代 虚 拟 化 数据 中 心 采 用 四 层 网 络 。 运 行 在 相同 物理 机 上 的 不 同 
节点 ， 它 们 之 间 的 通讯 无 需 通 过 网 络 ， 这 有 助 于 优化 块 放 置 。 
O 通过 重 写 BlockPlacementPolicy 抽 象 类 ，HDFS 人 允许 块 放置 策略 可 搬 拔 化 。 


Hadoop 安 全 及 数据 安全 是 Hadoop 中 很 重要 的 方面 。 在 本 章 ， 我 们 了 解 到 隔离 是 确保 关注 分 
离 的 一 个 方法 。 但 是 , 这 在 更 大 型 的 公司 中 还 不 够 ,此 类 公司 对 于 数据 遵从 着 法 律 法 规 方面 的 要 
求 ， 所 以 需要 更 严格 的 数据 安全 保障 。 我 们 将 在 下 一 章 中 介绍 Hadoop 安 全 。 


Hadoop 安 全 


数据 对 任何 组 织 而 言 都 是 一 种 资产 。 在 这 个 千 禧 年 中 , 像 谷 歌 这 样 的 大 型 企业 已 经 证 明了 收 
集 并 分 析 数 据 本 身 就 可 以 成 为 一 种 产品 , 并 带 来 非常 成 功 的 商业 模式 。 于 是 , 这 在 数据 驱动 决策 
以 及 个 性 化 消费 者 体验 两 方面 引发 了 爆炸 性 的 发 展 。 数据 从 根本 上 成 为 了 企业 一 种 具有 高 价值 的 
财产 。 如 同 其 他 的 资产 ， 数 据 一 样 需 要 受到 保护 。 


数据 安全 领域 深入 人 研究 如 何 保护 数据 。 数 据 的 安全 威胁 有 来 自 企业 外 部 的 , 也 有 来 自 企 业内 
部 的 。 数据 盗 穷 是 最 常见 的 网 络 犯罪 之 一 。 最 近 的 研究 已 经 表明 数据 的 安全 威胁 更 多 是 来 自 企业 
的 内 部 , 可 能 是 那些 对 企业 心怀 不 满 的 员工 ,也 可 能 是 那些 本 吴 并 没有 亚 意 的 用 户 的 不 经 意 行为 。 
像 授 权 这 样 的 安全 功能 ， 已 经 成 为 任何 数据 产品 最 基本 的 功能 了 。 


本 章 ， 我 们 将 介绍 如 下 几 个 主题 : 


口 安全 的 核心 

口 Hadoop 中 的 认证 

口 Hadoop 中 的 授权 

口 Hadoop 中 的 数据 保密 性 
口 Hadoop 中 的 日 志 审 计 


11.1 安全 的 核心 
数据 安全 的 四 大 核心 功能 如 下 所 示 。 


O 认证 (authentication ): 这 指 的 是 向 一 个 系统 或 是 用 户 提出 怀疑 ， 让 其 证 明 自 己 的 身份 。 
只 有 经 过 认证 的 身份 才 被 允许 进入 到 数据 系统 。Hadoop 中 的 认证 主要 有 两 种 ， 简 单 认证 
和 伪 认 证 。 前 者 是 一 种 宽松 的 安全 体系 ， 它 信任 用 户 自 己 宣 称 的 身份 。 而 后 者 则 使 用 像 TN 
Kerberos 这 样 的 系统 来 认证 用 户 。 在 企业 级 应 用 上 ， 作 为 最 佳 实践 ， 推 荐 后 者 。Hadoop 
甚至 支持 无 颖 地 集成 很 多 像 LDAP 和 活动 目录 (active directory ) 这 样 的 用 户 存储 。 在 这 些 
存储 的 帮助 之 下 ， 可 以 将 Kerberos 实 现成 一 个 认证 机 制 。 
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口 


口 


授权 ( authorization ): 授权 是 指 授予 一 个 通过 认证 的 用 户 访问 数据 资源 的 权限 。 在 一 个 需 
要 共享 数据 集群 的 多 租户 系统 或 是 多 团队 企业 中 , 政策、 法 规 和 监管 规范 可 能 会 禁止 一 
个 团队 去 访问 属于 另 一 个 团队 的 数据 。 在 这 种 情况 下 ， 将 敏感 的 数据 资源 与 那些 无 意 或 
是 恶意 的 访问 隔离 开 就 显得 十 分 重要 。Hadoop 支 持 不 同 级 别 的 授权 。 对 于 HDFS Hadoop 
提供 了 文件 级 的 细 粒 度 访问 控制 。 这 种 访问 控制 非常 类 似 于 那些 基于 UNIX 的 文件 系统 。 
MapReduce 计 算 层 在 资源 级 别 同 样 有 访问 控制 列表 (Access Control List, ACL ), Hadoop 
服务 允许 有 他 们 自己 的 授权 功能 。 例 如 ， 可 以 使 用 粗 粒度 的 访问 控制 机 制 来 保护 Hive 的 
表 ， 如 SQL。 

审计 (auditing ): 审计 是 深入 到 数据 系统 使 用 模式 的 一 种 机 制 。 不 论 进行 何 种 审计 ， 最 基 
本 的 要 求 都 是 要 提供 统计 功能 。 所 有 的 访问 和 操作 都 需要 被 记录 在 审计 日 志 中 ， 以 便 在 
稍 后 的 时 间 点 进行 审计 。 在 企业 中 ， 审 计 对 于 信守 承诺 非常 重要 。 例 行 审 计 可 以 确保 遵 
和 守 数 据 策略 。 有 些 场合 可 能 需要 即席 (adhoc) 审计 ， 特 别 是 当 系 统 中 出 现 安全 漏洞 时 。 
审计 可 以 揭示 取证 信息 ， 帮 助 惩罚 犯罪 并 评估 漏洞 所 造成 的 损失 。 在 平台 级 别 ，Hadoop 
文 持 审计 。 在 服务 级 别 ， 像 Hive 这 样 的 服务 会 在 元 数据 中 记录 所 有 用 户 相 关 的 行为 。 
数据 保护 : 大 数据 系统 分 布 在 很 多 机 器 上 ， 这 使 得 数据 不 得 不 从 一 个 节点 移动 到 另 一 个 
节点 。 此 外 它 也 涉及 数据 存储 位 置 不 可 信 的 问题 ， 比 如 云 上 。 这 两 种 情况 都 会 迫使 我 们 
在 隐私 和 机 密 性 上 做 出 妥协 。 传 输 过 程 中 的 中 间 人 可 以 找到 那些 正在 传输 的 数据 ， 而 一 
个 充满 恶意 的 攻击 者 甚至 可 以 操纵 数据 。 在 其 他 时 候 ， 不 可 信 的 一 方 可 以 突 探 或 修改 数 
据 。 对 付 这 种 攻击 的 保护 措施 可 以 通过 加 密 技 术 来 实现 。 在 传输 以 及 其 他 时 候 ， 可 以 将 
数据 进行 加 密 。 生 成 数字 签名 可 以 保护 数据 免 受 修改 。 在 Hadoop 中 ， 可 以 对 通过 线路 的 
传输 进行 加 密 以 便 保证 数据 的 机 密 性 。 在 其 他 时 候 ， 操作 系 统 级 别 的 加 密 可 以 保护 HDFS 
上 数据 的 机 密 性 。 


Hadoop 提 供 的 上 述 这 些 核心 功能 都 达到 了 令 人 满意 的 程度 。 接 下 来 我 们 将 深入 探讨 其 中 某 些 


功能 。 


11.2 


Hadoop 中 的 认证 


Hadoop 中 的 认证 可 以 很 简单 ， 也 可 以 使 用 Kerberos。Hadoop 同 样 允 许 你 自 定义 认证 方案 。 在 


de 


11.2.1 


， 我 们 将 看 到 Kerberos 认 证 以 及 如 何 使 用 HTTP Hadoop 接 口 来 通过 认证 。 


Kerberos 认 证 


Kerberos 是 一 种 网 络 认证 协议 ， 它 使 用 加 密 来 提供 高 度 安全 的 认证 机 制 。 这 种 认证 机 制 由 于 


口 


具备 以 下 功能 而 大 受 欢 迎 。 


相互 认证 : 在 进行 会 话 之 前 ， 客 户 端 和 服务 器 可 以 进行 相互 认证 。 


11.2. Hadoop 中 的 认证 
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了 会 话 的 最 长 时 间 。 


式 攻 击 (man-in-the-middle attack ) 或 是 重 放 攻 击 (replay attack )。 


11.2.2 ”Kerberos 的 架构 和 工作 流 


口 协议 消息 加 密 : 认证 过 程 中 的 所 有 协议 消息 都 会 加 密 ， 所 以 它 不 可 能 被 对 手 进行 


口 单 点 登录 : 一 旦 登录 , 令 牌 (token ) 的 有 效 时 间 就 确定 了 。 令 牌 有 效 性 的 持续 时 间 决 定 


中 间 人 


Kerberos 的 核心 是 Kerberos 密 钥 分 发 中 心 ( Key Distribution Center, KDC )。KDC 有 以 下 两 个 


重要 的 组 件 : 


口 认证 服务 器 ( Authentication Server, AS ) 
口 票据 授予 服务 器 (Ticket Granting Server, TGS ) 


认证 服务 器 负责 验证 客户 端的 有 效 性 。 票据 授予 服务 器 则 人 负责 发 放 令 牌 或 票据 (有 时 间 限 种 


且 加 密 的 消息 )， 受 让 人 可 以 使 用 这 些 令 牌 或 票据 对 其 自身 进行 认证 。 
下 图 显示 了 当 客 户 端 使 用 Kerberos 进 行 认证 时 的 协议 工作 流 。 


zt 
c 


密 钥 分 发 中 心 


票据 授予 服务 器 (TGS) 


4. 票据 十 服务 器 
会 话 密 钥 


2. TGT + 会话 窗 铀 


1. TGT 请 求 


3. 加 密 过 的 
认证 信息 


服务 器 


5. 服务 器 会 话 
认证 信息 


认证 服务 器 (AS) 


认证 步骤 如 下 所 示 。 


(1) 首先 ， 客 户 端 向 Kerberos 中 的 AS 请 求 一 个 票 予 票据 (Ticket Granting Ticket, 


TGT), 
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(2) AS 在 自己 的 数据 库 中 检查 客户 端 ， 然 后 送 回 两 条 消息 。 第 一 条 消息 是 会 话 密 钥 ， 第 二 条 
则 是 TGT。 这 两 条 消息 都 使 用 客户 端的 密码 作为 密 钥 进行 了 加 密 。 只 有 当 自 己 的 密码 和 AS 中 保 
存 的 密码 一 致 时 ， 客 户 端 才 可 以 使 用 这 个 会 话 密 钥 和 TGT。 


(3) 客户 端 想 要 访问 服务 ， 首 先 得 提交 自己 的 身份 信息 到 TGS。 为 了 证 明 其 真实 性 ， 客 户 端 
需要 通过 它 从 AS 那 取得 的 会 话 密 钥 向 TGS 发 送 加 密 过 的 认证 信息 。 


(4) TGS 收 到 请 求 后 ， 将 它 解密 ， 然 后 检查 客户 端 和 请 求 的 有 效 性 。 成 功 验证 后 ，TGS 授 巴 
一 张 带 有 时 效 的 票据 ,同时 也 会 返回 一 个 服务 器 会 话 密 钥 给 客户 端 。 这 个 服务 器 会 话 密 钥 会 有 两 
个 副本 一 一 一 个 用 客户 端的 机 密 信 息 加 密 ， 另 一 个 则 用 服务 器 机 密 信息 加 密 。 


(5) 现在 ， 客 户 端 手中 握 有 票据 、 服 务 器 会 话 密 钥 ， 以 及 它 所 需要 访问 的 服务 的 认证 信息 。 
服务 所 在 的 服务 器 验证 会 话 密 钥 , 然后 根据 验证 结果 授予 访问 权限 。 如 果 需 要 相互 认证 , 则 服务 
带 也 会 送 回 认证 信息 ,这 样 客户 端 就 可 以 对 其 有 效 性 进行 检查 。 这 是 可 行 的 ， 因为 会 话 密 钥 有 两 
个 副本 ,分 别 用 服务 器 和 客户 端的 机 密 信 息 进行 了 加 密 。 


11.2.3 Kerberos 认证 和 Hadoop 


Hadoop 的 认证 客户 端 需要 一 个 密码 去 进行 Kerberos 的 认证 工作 流 。 对 于 一 个 长 时 间 运 行 的 
MapReduce 作 业 来 说 ， 这 可 能 不 太 现实 ， 因 为 作业 时 间 可 能 会 超出 票据 的 有 效 时 间 。 在 Hadoop 
中 ,使 用 kinit 命 令 来 初始 化 客户 端 得 到 一 个 密码 。 虽 然 票 据 的 有 效 时 间 可 能 是 几 个 小 时 ， 但 对 
于 某 些 长 时 间 运 行 的 作业 ， 最 好 是 将 这 个 密码 写 人 一 个 叫 keytab 的 文件 。 


使 用 ktuti1 命 令 来 创建 keytab 文 件 。 然 后 使 用 -t 参 数 在 kinit 命 令 中 指定 这 个 keytab 文 件 。 
klist 俞 令 可 以 显示 一 个 用 户 拥有 的 不 同 票据 。kdestroy 命 令 可 以 注销 那些 不 再 使 用 的 票据 。 


11.2.4 HTTP 接口 的 认证 


默认 情况 下 ，Hadoop 集 群 所 有 的 HTTP 网 络 端口 都 没有 启用 认证 。 这 意味 着 任何 人 只 要 知道 
网 页 地 址 就 可 以 在 集群 中 访问 这 些 不 同 的 服务 。 不 过 可 以 通过 配置 HTTP 网 络 接口 ， 明 确 要 求 
Kerberos 认 证 使 用 HTTP SPNEGO 协 议 。 这 种 协议 可 以 很 好 地 支持 所 有 主流 的 浏览 器 。 

出 可 以 启用 简单 认证 。 这 需要 在 网 页 地 址 中 追加 用 户 名 作为 查询 字符 串 的 参数 。 参数 的 值 是 
这 个 用 户 的 身份 名 称 。 也 可 以 使 用 自 定义 的 认证 方案 。Hadoop 的 所 有 网 络 端口 都 支持 这 种 扩展 ， 
前 提 是 你 正确 地 重 写 JAuthenticatorHandler 类 。 


可 以 使 用 core-site.xml 中 的 如 下 属性 来 配置 HTTP 认 证 。 


D hadoop.http.filter.initializers: 这 个 属性 的 值 需要 配置 为 org .apache.hadoop. 


security.AuthenticationInitializer 类 的 类 名 。 
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口 hadoop.http.authentication.type: 这 个 属性 决定 了 认证 的 类 型 , 值 可 以 是 simple 

或 kerberos A 或 自 4E X. AuthenticatorHandl er 派生 类 的 类 名 S 默认 值 为 s impleo 

D hadoop.http.authentication.token.validity: 这 个 属性 的 值 是 指认 证 令 牌 的 有 

效 时 长 。 单 位 是 秒 ， 默 认 值 为 36 000。 超 过 这 个 时 长 就 必须 重新 更 新 令 牌 。 

D hadoop.http.authentication.signature.secret.file: 网 络 端口 的 机 密 信 息 保 

存在 这 个 文件 中 。 机 密 密 钥 被 用 于 为 认证 令 牌 提 供 一 个 数字 签名 。 

D hadoop.http.authentication.cookie.domain: 这 是 域名 白 名 单 , 其 认证 令 牌 可 以 

通过 cookies 递 送 。 此 属性 没有 默认 值 。 

口 hadoop.http.authentication.simple.anonymous.allowed: 当 这 个 属性 设 为 
true 时 , 允许 匿名 用 户 连接 HTTP 端 口 。 SUA Crue, 并 且 只 有 当 认 证 类 型 设 为 simple 
时 这 个 属性 才 有 效 。 

D hadoop.http.authentication.kerberos.principal: 当 认 证 类 型 设 为 kerberos 

时 所 使 用 的 Kerberos 实 体 名 称 。 

D hadoop.http.authentication.kerberos.keytab: 这 个 属性 的 值 是 HTTP 端 口 所 使 
用 的 Kerberos 实 体 的 keytab 文 件 的 路 径 。 


11.3 Hadoop 中 的 授权 

授权 涉及 到 对 资源 的 限制 访问 。Hadoop 为 HDFS 及 所 有 Hadoop 服 务 提供 了 授权 。 在 本 节 中 ， 
我 们 将 看 到 如 何 启用 Hadoop 的 授权 ， 以 确保 共享 资源 不 会 受到 非法 访问 。 
11.3.1 HDFS 的 授权 


HDFS 的 授权 模式 跟 POSIX 系 统 的 授权 模式 十 分 相似 。 在 POSIX 中 ， 每 个 资源 文件 和 日 
都 跟 一 个 所 有 者 用 户 和 组 相关 联 。HDFS 与 此 类 似 ， 其 权限 被 分 别 赋 于 不 同 的 身份 。 这 些 权 


录 
限 是 : 


a 资源 的 所 有 者 
a 与 资源 相关 的 组 的 用 户 
a 系统 中 的 其 他 用 户 


有 两 种 访问 权限 ， 即 读 和 写 。 和 POSIX 不 同 的 是 ，HDFS 中 的 文件 没有 执行 权限 ， 这 是 因为 
HDFS 中 的 文件 不 是 可 执行 的 。 如 果 用 户 或 是 属于 某 个 组 的 用 户 有 读 权限 tx， 那么 就 只 允许 从 
HDFS 中 读 取 这 个 文件 的 内 容 。 同样 , 任何 用 户 或 是 属于 某 个 组 的 用 户 有 写 权 限 w, 那 就 多 许 写 人 
或 是 往 一 个 即 存 文件 中 追加 内 容 。 用 户 或 是 组 可 以 同时 拥有 读 和 写 的 权限 rw。 


对 于 目录 来 说 , 这 个 权限 的 含义 略 有 不 同 。 读 权限 允许 用 户 或 是 属于 某 个 组 的 用 户 列 出 目录 
中 的 内 容 。 写 权限 允许 用 户 或 组 可 以 在 该 目录 中 创建 文件 和 子 目 录 , 或 是 追加 该 目录 中 文件 内 容 。 
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目录 还 有 一 个 特殊 的 执行 权限 x， 人 允许 用 户 或 组 可 以 访问 该 目录 的 子 目 录 。 


HDFS 文 件 没 有 POSIX 中 的 setuig 和 setgigd 的 概念 。 因 为 HDFS 不 是 可 执行 的 ， 所 以 拥有 这 
些 操作 对 它 来 说 是 没有 意义 的 。 在 这 种 情况 下 ， 就 算是 目录 也 不 需要 setuig 和 setgid。HDFS 
的 目录 允许 设置 粘 滞 位 (sticky bit), 这 样 可 以 防止 除了 superuser 之 外 的 其 他 用 户 操 作 目 录 或 目录 
中 的 内 容 。 不 过 ， 对 文件 设置 粘 渍 位 是 没有 任何 效果 的 。 


就 像 任何 基于 UNIX 的 操作 系统 一 样 ， 权 限 被 编码 成 三 个 八进制 数 。 第 一 个 八进制 数 表示 所 
有 者 的 rwx 位 ,第 二 个 表示 组 的 ,第 三 个 则 表示 其 他 所 有 用 户 的 。 例 如 ， 下 面 的 命令 将 所 有 权限 
赋 给 所 有 者 ， 将 读 权限 赋 给 该 组 ， 而 系统 中 的 其 他 用 户 则 没有 任何 权限 。 


hadoop fs -chmod 740 masteringhadoop 


文件 或 目录 的 这 组 权限 被 称 为 模式 (mode )。 使 用 chmod 命 令 ( 修改 模式 命令 ) 可 以 操作 这 
个 模式 。 当 一 个 进程 在 HDFS 上 创建 一 个 文件 或 目录 时 ， 它 自动 将 所 有 者 设 为 该 进程 的 所 有 者 。 
不 过 ， 组 继承 自 父 目录 的 组 ， 也 就 是 说 跟 父 目 录 的 组 一 样 。 


当 客 户 端 操作 HDFS 文 件 或 目录 时 会 提供 用 户 名 和 该 用 户 所 属 的 组 .HDFS 首 先 会 将 此 用 户 名 
和 文件 或 目录 的 所 有 者 进行 匹配 。 如 果 匹 配 成 功 , 那么 这 个 资源 的 权限 检查 就 完成 了 。 如 果 不 匹 
配 ， 则 会 检查 该 用 户 所 属 的 组 和 该 资源 所 属 的 组 列表 是 否 匹 配 ， 以 确认 该 用 户 是 否 属 于 这 个 组 。 
同样 ， 如 果 匹 配 成 功 ， 就 可 针对 所 需 操 作 进行 权限 检查 。 但 如 果 这 两 项 检查 结果 都 不 匹配 ， 就 会 
继续 检查 其 他 权限 。 如 果 最 终 三 种 权限 的 检查 都 不 匹配 ， 操 作 就 会 被 拒绝 。 


1. HDFS 用 户 的 身份 


如 上 所 述 , Hadoop 支 持 两 种 用 户 认 证 的 机 制 ,这 是 由 hadoop.security.authentication 
属性 的 值 来 决定 的 。 有 两 个 值 可 以 使 用 。 
O simple: 用 户 的 身份 由 运行 客户 端 进程 的 操作 系统 决定 和 提交 。 
O kerberos: 用 户 的 身份 由 它 的 Kerberos 证 书 决定 。 


要 注意 关键 的 一 点 是 HDFS 自 己 并 不 创建 、 修 改 或 删除 任何 身份 。 所 有 身份 管理 都 发 生 在 
HDFS 之 外 ， 比 如 简单 认证 时 在 操作 系统 ， 或 者 是 在 Kerberos。HDFS 仅 仅 使 用 提供 给 它 的 身份 信 
息 ， 然 后 对 它 进 行 授权 检查 。 


2. HDFS 用 户 的 组 列表 


用 户 和 组 的 映射 由 hadoop .security.group.mapping 属 性 的 值 来 决定 。 默 认 情 况 下 ， 这 
个 值 为 org .apache.hadoop.security.ShellBasedUnixGroupsMappings 当 使 用 这 种 特定 
的 组 映射 时 ， 会 将 用 户 名 传 给 UNIX 的 shell 命 令 来 确定 该 用 户 所 属 的 组 列表 。 比 如 ， 在 bash shell 


中 ， 这 个 命令 是 : 
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bash -c groups 


企业 可 以 有 自己 的 用 户 配 置 文件 存储 ， 比 如 轻 量 级 目录 访问 协议 (Lightweight Directory 
Access Protocol, LDAP ) 或 活动 目录 。 这 种 情况 下 , 可 以 通过 访问 这 些 目录 服务 来 确定 用 户 的 组 。 
Hadoop 内 置 有 一 个 通过 连接 LDAP 数 据 存储 来 确定 组 的 映射 服务 。 要 使 用 这 种 方法 ， 需 要 将 


hadoop.security.group.mapping 属性 的 值 设 为 org .apache.hadoop. security.LdapG- 


roupsMappingo 


NameNode 负 责 调用 相应 的 API 来 确定 指定 用 户 的 组 列表 ， 然 后 将 结果 提供 给 DataNode。 此 
外 ， 当 与 基于 UNIX 的 系统 做 比较 时 ， 所 有 的 组 和 用 户 名 都 是 被 存 为 字符 串 ， 而 不 是 数字 。 


M 如 果 在 客户 端 操作 过 程 中 撤销 权限 ， 客 户 端 仍 可 以 访问 那些 它 已 经 知道 的 
文件 的 块 。 


3. HDFS 的 API 及 shell 命 令 


所 有 的 HDFS API 在 执行 权限 检查 失败 时 都 会 抛 出 AccessCcontrolException 异 常 。 
org.apache.hadoop.fs.permission 包 里 的 F sPermission 类 用 来 封装 志文 件 或 日 录 中 与 权限 
相关 的 必要 信息 。Filestatus 包 含 FsPermission 对 象 。 使 用 getFilestatus 方 法 可 以 取得 文 
件 的 状态 。 

此 外 ，FileSystem 类 提供 了 一 些 方 法 来 设置 文件 或 目录 的 模式 以 及 所 有 者 /组 。setPer- 
mission 方 法 的 声明 如 下 : 


public void setPermission(Path path, FsPermission permission) 
throws IOException 


它 会 接受 Path 对 象 并 传 给 文件 或 目录 ， 也 会 接受 需要 在 上 面 执 行 的 权限 。 同样，set owner 
方法 的 声明 如 下 : 


public void setOwner(Path p, String username, String group) 
throws IOException 


setOwner 方 法 将 你 通过 Path 对 象 指定 的 文件 或 目录 的 所 有 者 和 组 设置 为 你 指定 的 内 容 。 
一 些 shell 命 令 也 可 以 修改 文件 和 目录 的 授权 参数 。 具 体 如 下 : 


hdfs chmod [-R] «octal mode» «file path» 

这 个 命令 可 以 用 来 修改 文件 或 目录 的 模式 。 使 用 八进制 的 模式 值 来 指定 所 有 者 、 组 及 其 他 用 
户 所 对 应 的 权限 。 使用-R 参 数 可 以 递归 地 将 所 有 子 文件 和 子 目 录 的 模式 都 修改 成 指定 的 模式 , 直 
到 遇见 叶 文件 或 目录 。 严 格 地 说 ， 只 有 文件 或 目录 的 所 有 者 或 超级 用 户 〈superuser ) 才 可 以 修改 
模式 。 

同样 ，chown 命 令 可 以 设置 指定 文件 或 目录 的 所 有 者 或 组 。 具 体 如 下 : 
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hdfs chown [-R] [owner][:[group]l] «filepath» 


所 有 者 名 称 和 组 可 以 跟随 文件 路 径 一 起 指定 。 文件 的 所 有 者 只 有 超级 用 户 才能 修改 , 其 他 人 
都 不 可 以 。 同 样 ， 使 用 -R 参 数 可 以 递归 地 修改 所 有 目录 和 子 目 录 的 所 有 者 。 


chgrp 命 令 也 可 以 修改 一 个 文件 所 属 的 组 。 有 具体 如 下 : 
hdfs chgrp [-R] «group» «filepath» 


只 有 当 文件 或 目录 的 所 有 者 属于 这 个 指定 的 组 时 ， 才 允许 修改 。 另 外 , 超级 用 户 也 允许 进行 
这 项 操作 。 


4. 指定 HDFS 的 超级 用 户 


在 Hadoop 中 ， 启动 NameNode 的 用 户 被 称 为 HDFS 的 超级 用 户 。 超 级 用 户 拥 有 HDFS 中 最 高 的 
权限 。 对 于 超级 用 户 的 权限 检查 是 不 会 失败 的 ， 而 且 超 级 用 户 的 身份 允许 执行 所 有 操作 。 


超级 用 户 的 身份 并 不 是 永恒 的 。 它 严格 地 取决 于 “ 谁 来 启动 NameNode 服 务 ”。 所 以 并 没有 必 
要 将 运行 NameNode 的 机 器 管理 员 赋 于 超级 用 户 的 身份 。 


然而 ， 管 理 员 可 能 也 需要 指定 一 组 用 户 具备 超级 用 户 的 身份 ， 不 过 这 些 用 户 并 不 会 去 运行 
NameNode。 将 dfs .permissions.superusergroup 属 性 的 值 设 置 为 需要 执行 超级 用 户 权 限 的 
一 组 用 户 o 


HDFST&K f — Web R MRHAR. Webllt ir AERARMEA, MA 
身份 由 afs .web.ugi 配 置 属 性 指定 。 属 性 值 由 运行 这 个 Web 界 面 的 用 户 和 组 的 列表 所 组 成 , E 
号 分 隔 。 这 个 属性 值 中 的 用 户 也 可 以 指定 为 超级 用 户 。 如 果 Web 服 务 器 以 超级 用 户 的 权限 运行 ， 
那 就 可 以 查看 整个 命名 空间 。 如 果 设 置 为 超级 用 户 以 外 的 用 户 和 组 , 那 就 只 能 基于 这 个 用 户 或 组 
的 权限 访问 有 限 的 内 容 。 另 外 ， 在 逗号 分 隔 的 列表 中 ， 可 以 指定 多 个 组 。 


5. 关闭 HDFS 授 权 


整个 授权 功能 都 是 由 afs .permissions 属 性 控制 。 如 果 这 个 属性 设 为 Lrue， 那么 所 有 跟 权 
限 相 关 的 规则 和 检查 就 会 被 应 用 到 每 个 操作 中 。 如 果 设 为 false， 那么 授权 功能 就 被 关闭 了 。 关 
闭 权限 控制 并 不 会 改变 文件 系统 中 的 文件 及 目录 的 模式 、 所 有 者 ,或 是 组 。 


然而 ， 之 前 讨论 过 的 chmod、chown 及 chgrp 命 令 并 不 会 受到 权限 关闭 的 影响 。 当 执行 这 些 
命令 时 ， 会 强制 进行 权限 检查 。 


11.3.2 ”限制 HDFS 的 使 用 量 

即使 有 足够 的 认证 和 授权 的 设置 , 仍然 可 能 发 生 某 种 意外 , 即 某 个 用 户 或 某 个 组 的 用 户 超过 
了 资源 使 用 的 公平 配额 。 这 也 许 是 由 于 用 户 不 小 心 运行 了 一 个 错误 的 处 理 , 或 是 一 个 恶意 的 用 户 
试图 在 Hadoop 和 集群 上 挂 载 一 个 拒绝 服务 (denial of service ) 所 引起 的 。 
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HDFS 提 供 了 配额 (quota) 用 于 限制 使 用 。 配 额 可 以 限制 文件 数 及 使 用 的 空间 量 。 这 些 配置 
可 以 设置 在 一 个 目录 级 别 ， 然 后 对 所 有 子 文件 和 子 目 录 都 起 作用 。 


1. HDFS 中 的 数量 配额 

使 用 数量 配额 可 以 限制 一 个 目录 中 子 目录 和 子 文件 的 数量 。 一 个 目录 的 数量 配额 值 为 1 时 ， 
表示 该 目录 下 不 能 创建 子 目 录 或 子 文件 。 默 认 情 况 下 ， 创 建 一 个 目录 时 不 会 设置 它 的 数量 配额 。 
这 时 候 最 大 的 配额 跟 Long .Max_Value 有 关 。 当 给 目录 设置 配额 时 ,即使 该 目录 已 经 超过 了 配额 
E, 设置 也 会 成 功 。 下 面 的 命令 可 以 用 来 设置 一 个 或 一 组 目录 的 配额 : 


hdfs dfsadmin -setQuota «Quota» <dirl>...<dirn> 

使 用 -clreuota 命 令 可 以 删除 一 个 或 一 组 目录 的 配额 ,使 用 方法 如 下 : 

hdfs dfsadmin -clrQuota «diri» ... «dirn» 

2. HDFS 中 的 空间 配额 

使 用 空间 配额 可 以 限制 每 个 目录 的 空间 使 用 量 。 空间 配 额 以 字 节 为 单位 。 如 果 一 个 目录 中 的 
某 个 文件 的 块 大 小 超过 了 这 个 配额 , 则 写 人 会 失败 。 零 配额 允许 创建 文件 ,但 这 个 文件 不 能 写 和 人 


内 容 ， 这 是 因为 文件 元 数据 并 不 归 入 这 个 配额 。 男 外 ,目录 也 不 计算 在 空间 配额 内 。 配 额 能 指定 
的 最 大 字 节 数 为 Long .Max Values 


文件 的 备份 会 被 计算 在 配额 内 。 比 如 一 个 三 备份 的 1 TB 文件 ， 则 会 占用 3 TB 的 配额 。 在 设置 
配额 时 请 牢记 这 一 点 。 


下 面 的 命令 可 以 用 来 设置 HDFS 中 的 空间 配额 : 


hdfs dfsadmin -setSpaceQuota «Quota» «dirl»...«dirn» 


使 用 -clrspaceouota 命 令 可 以 重 置 空间 配额 ,使 用 方法 如 下 : 


hdfs dfsadmin -clrSpaceQuota <dirl>.... «dirn» 


使 用 带 -g 参 数 的 count 命 令 可 以 列 出 文件 和 目录 的 配额 。 如 果 没 有 设置 任何 配额 , 这 个 命令 
会 显示 该 目录 数量 配额 为 none， 空 间 配 额 为 inf (infinity )。 


hdfs -count -q <dir1>..<dirn> 


11.3.3 ”Hadoop 中 的 服务 级 授权 


Hadoop 有 很 多 串联 运行 的 服务 来 处 理 提交 的 应 用 和 作业 。YARN 的 资源 管理 器 可 以 运行 执 交 
的 应 用 。Application Master 将 作业 作为 输入 并 进行 处 理 。 同 样 ，HDFS 的 NameNode 服 务 提供 元 数 
据 存储 及 HDFS 的 目录 服务 。 在 任何 框架 中 ， 访 问 服务 的 授权 功能 都 是 一 项 强制 性 的 安全 组 件 。 
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在 Hadoop 的 配置 目录 里 ，hadoop-policyxml 文 件 描述 了 访问 服务 的 授权 策略 。 使 用 ACL 来 定 
义 授权 , ACL 定 义 了 用 户 或 组 ， 以 及 允许 或 拒绝 某 个 用 户 或 组 的 访问 类 型 。 一 开始 就 会 进行 这 些 
ACL 的 检查 ， 之 后 才 是 其 他 的 授权 检查 ， 比 如 HDFS 授 权 。 


将 core-site.xml 文 件 中 的 hadoop.security.authorization 属 性 设置 为 true 可 以 启用 
Hadoop 中 的 服务 级 授权 ( Service-Level Authorization, SLA )。Hadoop 的 SLA 功 能 有 很 多 ACL 的 设 
置 ， 定义 了 允许 或 限制 访问 服务 。 具 体 如 下 所 示 。 


D security.client.protocol.acl: 这 个 属性 决定 了 经 Hadoop API 的 分 布 式 文件 系 


统 客户 端的 使 用 权限 


。 被 允许 访问 的 用 户 或 组 可 以 通过 一 个 访问 控制 项 (Access Control 


Entry，ACE ) 来 调用 NameNode 服 务 。 


LU security.client. 


datanode.protocol.acl: 这 个 属性 决定 了 在 Hadoop 集 群 中 可 以 


访问 DataNode 的 用 户 和 组 。 被 允许 访问 的 用 户 或 组 可 以 通过 ACE 调用 DataNode 的 API。 该 


口 security.datanod 


QD security.inter.d 


属性 通常 用 于 块 恢复 场景 。 


e.protocol.acl: 这 个 属性 确定 了 相应 的 ACE ， 人 允许 DataNode 与 


NameNode 通 信 ， 并 访问 NameNode。 


atanode.protocol.acl: 这 个 属性 确定 了 相应 的 ACE ， 人 允许 


DataNode 与 其 他 DataNode 通 信 。 它 们 通常 被 用 于 更 新 年 代 时 间 戳 ( generation timestamp )。 
而 这 个 时 间 惟 被 用 于 块 写 人 失败 场景 。 


D security.namenod 
信 时 拥有 的 权限 种 类 


LU security.inter.t 


e.protocol.acl: 这 个 属性 决定 了 从 NameNode 与 主 NameNode 通 


o 


racker .protocol.acl: 这 个 属性 决定 了 Task Tracker Job Tracker 


通信 时 拥有 的 权限 种 类 。 

D security.job.submission.protocol.acl: 这 个 属性 决定 了 作业 提交 客户 端 所 拥有 
的 权限 。 这 些 客户 端 被 用 于 提交 作业 或 查询 作业 状态 。 

口 security.task.umbilical.protocol.acl: 这 个 属性 决定 了 Map 或 Reduce 任 务 与 父 
TaskTracker 进 程 通信 时 的 权限 。 
D security.refresh.policy.protocol.acl: 这 个 属性 决定 了 dfsadmin 和 mraqdmin 
命令 刷新 策略 时 的 权限 。 
口 security.ha.service.protocol.acl ; 这 个 属性 决定 了 HAAdmin 管 理 活 跃 


NameNode 和 备用 NameNode 时 的 权限 。 这 个 ACL 协 议 只 用 于 处 理 NameNode 高 可 用 性 。 


每 个 ACL 都 是 由 一 个 用 户 列表 和 紧 随 其 后 的 组 列表 所 组 成 。 每 个 用 户 列表 用 逗号 分 隔 。 每 个 
组 列表 也 是 用 逗号 分 隔 。 用 户 列 表 和 组 列表 之 间 是 用 空格 分 隔 。 比 如 ，u1，u2 gl1，g2 表 示 这 个 
ACL 是 用 于 用 户 u1、 用 户 u2、 组 g1 以 及 组 g2。 星 号 C* ) 作为 通配符 可 以 被 用 来 指定 为 所 有 用 户 。 


不 用 重启 NameNode 或 其 他 任何 守护 进程 就 可 以 刷新 SLA。 dfsagdmin 和 mragdmin 命 令 都 有 一 


个 -refreshServiceAcl 参 数 用 于 重新 加 载 配置 。 
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下 面 的 XML 就 是 一 个 hadoop-policyxml 样 本 文件 中 的 一 段 : 


«property» 
«name»security.job.submission.protocol.acl«/name» 
«value»ul,u2 gl«/value» 
«/property» 
«property» 
«name»security.client.protocol.acl«/name» 
«value»* «/value» 
«/property» 


第 一 个 ACL 人 允许 用 户 u1 和 u2 在 集群 中 提交 作业 。 此 外 , 属于 组 g1 的 所 有 用 户 也 可 以 提交 作业 。 
第 二 个 ACL 则 允许 所 有 用 户 访问 HDFS。 
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Hadoop 是 一 个 分 布 式 的 系统 。 所 有 分 布 式 的 系统 都 通过 网 络 相互 连接 。 网 络 容 易 受 到 攻击 ， 
从 而 被 恶意 地 窃取 数据 。 同 时 ， 数 据 在 不 传输 的 时 候 ， 如 果 没 有 加 密 保 护 ， 也 会 被 读 取 。 

数据 在 不 传输 的 时 候 , 它 的 保密 性 被 委托 给 DataNode 所 在 机 器 的 操作 系统 。 大 多 数 现代 的 操 
作 系统 都 提供 了 加 密 方案 ， 以 保护 在 他 们 范围 内 的 磁盘 上 的 数据 。 在 本 节 中 , 我 们 将 看 到 通过 网 
络 传输 时 的 保密 性 以 及 如 何在 数据 传输 过 程 中 启用 加 密 。 


HTTPS 和 加 密 的 洗 牌 

在 洗 牌 过 程 中 加 密 ， 是 一 项 有 利于 数据 保密 性 的 功能 。 入 之 前 所 述 ， 在 MapReduce 作 业 的 生 
命 周期 中 ,， 洗 牌 是 将 数据 从 Map 任 务 移 到 Reduce 任 务 的 步骤 。 这 是 通过 网 络 在 机 器 之 间 进 行 的 数 
据 移 动 ， 传 输 协议 是 HTTP。 

HTTP 本 身 以 明文 发 送 数 据 ， 即 ， 使 用 一 种 未 加 密 的 形式 。 当 有 人 恶意 突 探 网 络 时 ， 这 会 导 
致 信息 的 泄漏 HTTPS 是 HTTP 的 安全 形式 ,所 有 HTTP 端 点 间 的 包 负 载 都 使 用 安全 套 接 层 ( Secure 
Socket Layer, SSL ) 进行 加 密 。Hadoop 通 过 在 Map 和 Reduce 任 务 节点 间 使 用 HTTPS 通 信 ， 人 允许 加 
密 的 洗 牌 处 理 。 

另外 ，Hadoop 也 人 允许 客户 端 认 证 。 通 过 配置 设置 来 实现 加 密 的 洗 牌 处 理 : 


O 关闭 HTTP 和 HTTPS 之 间 的 洗 牌 处 理 ; 
O 指定 一 个 密 钥 库 ( keystore ) 和 信任 库 (truststore )， 以 便 HTTP 加 密 ; 
a 当 添 加 或 删除 节点 时 ， 重 新 加 载 信 任 库 。 


1. SSL 的 配置 更 改 
加 密 洗 牌 处 理 的 配置 需要 SSL。 启 用 SSL， 需 要 进行 如 下 更 改 。 
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口 如 果 要 使 用 客户 端 证 书 ， 则 core-site.xml 文 件 中 的 hadoop.ssl.require.client.cert 
属性 需要 设 为 crue。 上 默认 情况 下 ， 这 个 值 是 false。 
口 当 使 用 SSL 连 接 时 ,使 用 hadoop.ssl.hostname.verifier 属 性 来 指定 安全 的 等 级 。 


Java 中 的 HttpsUrlConnection 类 使 用 这 个 值 来 确定 是 否 允 许 连接 。 将 认证 方案 中 的 服 
务 器 身份 与 实际 的 服务 器 身份 进行 比较 ， 来 决定 允许 还 是 拒绝 连接 。 这 个 属性 的 值 有 


D 


Ej 


D 


w 


FAULT, STRICT, STRICT I6, DEFAULT AND LOCALHOSTAIALLOW ALL; BIME 
FAULT。ALLOW_ALL 是 最 弱 的 验证 形式 。 这 个 属性 在 core-site.xml 文 件 中 。 


口 nadoop.ssl.keystores.factory.class 属 性 表示 用 于 实现 和 管理 密 钥 库 的 类 名 ,默认 
情况 下 ， 值 为 org.apache.hadoop.security.ssl.Fil BasedKeyStoresFactoryo 
这 个 属性 在 core-site.xml 文 件 中 。 

属性 表示 服务 器 端 用 于 配置 SSL 的 配置 文件 。 默 认 值 为 

ssl-server.xml。 出 于 可 用 性 , 此 文件 配 在 class path 中 。 这 个 配置 文件 的 值 配置 了 密 角 


D hadoop.ssl.server.conf 


库 和 其 他 的 SSL 属 性 。 这 个 属 
Ef 属性 跟 上 一 个 属 


D hadoop.ssl.client.con 


j 


H 


— 


E 在 core-site.xml 文 件 中 。 
性 类 似 。 但 它 定义 的 是 客户 端的 SSL 属 性 。 


ny 


"uni 
4 


默认 值 为 ss1-client .xml， 而 且 必 须 配 在 class path 中 。 


上 面 所 有 的 属性 都 被 标记 为 final， 这 意味 着 它们 不 能 被 系统 或 用 户 用 其 他 任何 配置 所 覆 
这 些 属性 必须 配置 在 集群 的 所 有 节点 上 。 


下 面 的 配置 段 显 示 了 一 个 core-site.xml 样 本 的 配置 : 


«property» 


«name»-hadoop.ssl.require.client.cert«/name» 


«value»false«c/value» 
«final»true«c/final» 
</property> 
<property> 


<name>hadoop.ssl.hostname.verifier</name> 


<value>DEFAULT</value> 
<final>true</final> 
</property> 
<property> 


<name>hadoop.ssl.keystores.factory.class</name> 
<value>org.apache.hadoop.security.ssl 
.FileBasedKeyStoresFactory</value> 


<final>true</final> 
</property> 
«property» 


«name-hadoop.ssl.server.conf«/name» 
«value»ssl-server.xml«/value» 


«final»true«/final-» 
</property> 
<property> 


<name>hadoop.ssl.client.conf</name> 
<value>ssl-client.xml</value> 
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«final»true«/final» 
</property> 
前 面 的 属性 在 节点 间 设 置 了 SSL， 这 样 可 以 将 HITPS 作 为 通信 协议 使 用 。 要 在 加 密 的 洗 牌 处 


理 中 局 用 HTTPS ,可 以 将 mapred-site.xml 文 件 中 的 mapreduce.shuffle.ssl.enabledq 属 性 设 为 
true, 默认 ;4 


情况 下 , 该 属性 的 值 为 false。 同样 , 这 个 属性 是 不 能 被 覆盖 的 , 并 被 标记 为 final。 


下 面 的 代码 段 显 示 了 mapred-site.xml 文 件 中 这 个 属性 的 配置 : 


«property» 
«name»mapreduce.shuffle.ssl.enabled«/name» 
«value»strue«/value» 

«final»true«/final» 
</property> 


2. 配置 密 钥 库 和 信任 库 


Hadoop 


中 可 以 直接 使 用 的 密 钥 库 实现 只 有 FileBasedKeyStoreFactory。 信任 库 和 密 钥 库 


所 对 应 的 文件 可 以 通过 设置 hadoop .ssl.server.conf 和 hadoop.ssl.client.conf 属 性 的 
值 来 指定 。 


密 钥 库 和 信任 库 的 结构 非常 相似 。 它 们 被 用 于 存储 私 钥 和 证 书 。 不 过 在 功 
能 上 它们 服务 于 不 同 的 目标 。 密 钥 库 被 用 来 存储 在 SSL 连 接 中 所 需要 提供 的 证 
书 。 一 般 情 况 下 ， 密 钥 库 被 用 来 存储 启动 一 个 安全 的 远程 连接 所 需要 的 私 钥 和 
公 铀 证 书 。 如 果 启 动 了 一 个 SSL 服 务 器 ， 或 服务 器 需要 处 理 客户 端 认 证 ， 那 么 必 
须 使 用 密 钥 库 来 存储 必要 的 密 钥 和 证 书 。 

相 比 之 下 ， 信 任 库 被 用 来 在 一 个 连接 建立 时 验证 证 书 。 它 们 通常 包含 第 三 
方 的 证 书 ， 比 如 根 证 书 或 是 由 标识 和 认可 端点 的 认证 机 构 所 签署 的 证 书 。 

密 钥 库 和 信任 库 可 以 是 同一 个 文件 。 不 过 ， 通 常 最 好 将 它们 分 开 。 


可 以 使 用 下 表 中 所 列 的 属性 来 配置 ssl-serverxml 文 件 。 


属性 名 js x 

551.server.keystore.type 密 钥 库 文件 的 类 型 。Java 密 钥 库 是 jks 类 型 的 。 这 个 属性 的 默认 值 是 
jks 

SS VEE eo 密 钥 库 文件 在 本 地 节点 上 的 路 径 。 运行 任何 MapReduce 作 业 的 用 户 至 
少 需要 这 个 文件 的 读 权限 

M M 每 个 密 钥 库 和 信任 库 文件 都 有 密码 保护 。 密 铀 库 的 密码 在 这 里 指定 

ssl.server.truststore.type 信任 库 文件 的 类 型 。 默 认 值 为 jks 

Ssl.server.truststore.location 信任 库 的 文件 路 径 

Ssl.server.truststore.password 信任 库 的 密码 

Ssl.server.truststore.reload.interval 从 信任 库 重 新 加 载 证 书 的 时 间 间 隔 ， 单 位 为 毫秒 。 默 认 值 为 10 000， 


表示 10 秒 
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下 面 是 一 个 sslL-serverxml 文 件 的 样本 配置 : 


«configuration» 

<!-- X94 EkqTmXE --> 

«property» 
«name»ssl.server.keystore.type«c/name» 
«value»jks«/value» 

«/property» 

«property» 
«name»ssl.server.keystore.location«/name» 
«value»$(user.home)/keystores/certstore.jks«/value» 

«/property» 

«property» 
«name»ssl.server.keystore.password«/name» 
«value»«your keystore password»«/value» 

</property> 


<!-- 信任 库 相 关 配 置 --> 

«property» 

«name»ssl.server.truststore.type«/name» 
«value»jks«/value» 

«/property» 

«property» 
«name»ssl.server.truststore.location«/name-» 
«value»$í(user.home)/keystores/castore.jks«/value» 

«/property» 

«property» 
«name»ssl.server.truststore.password«/name- 
«value»«your truststore password»«/value» 

«/property» 

«property» 
«name»ssl.server.truststore.reload.interval«/name» 
«value»10000«-/value» 


«/property» 
«/configuration» 
可 以 使 用 下 表 中 所 列 的 属性 来 配置 ssl-client.xml 文 件 。 
属性 名 Hook 
Ssl.client.keystore.type 密 钥 库 文 件 的 类 型 。Java 密 钥 库 是 jks 类 型 的 。 这 个 属性 的 默认 值 是 
jks 
ss1.client.keystore.location 密 钥 库 文件 在 本 地 节点 上 的 路 径 。 运行 任何 MapReduce 作 业 的 用 户 至 
少 需 要 这 个 文件 的 读 权限 
551.client.keystore.password 每 个 密 钥 库 和 信任 库 文件 部 有 密码 保护 。 密 钥 库 的 密码 在 这 里 指定 
ssl.client.truststore.type 信任 库 文件 的 类 型 。 默 认 值 为 Jks 
Ssl.client.truststore.location 信任 库 的 文件 路 径 
ssl.client.truststore.password 信任 库 的 密码 
Ssl.client.truststore.reload.interval 从 信任 库 重 新 加 载 证 书 的 时 间 间 隔 ， 单 位 为 毫秒 。 默 认 值 为 10 000, 


表示 10 秒 
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下 面 是 一 个 ssl-client.xml 文 件 的 样本 配置 : 


<configuration> 

<!-- €9&dm XE --> 

«property» 
«name»ssl.client.keystore.typec/name» 
«value»jks«/value» 

«/property» 

«property» 
«name»ssl.client.keystore.location«c«/name» 
«value»$(user.home)/keystores/clientcertstore.jks«/value» 

«/property» 

«property» 
«name»ssl.client.keystore.password«/name» 
«value»«your keystore password»«/value» 

«/property» 


«1-- 信任 库 相 关 配 置 --> 

«property» 

«name»ssl.client.truststore.type«/name» 
«value»jks«/value» 

«/property» 

«property» 

«name»ssl.client.truststore.location«/name» 
«value»$(user.home)/keystores/clientcastore.jks«/value» 

«/property» 
property» 
«name»ssl.client.truststore.password«/name» 
«value»«Your truststore password»«/value» 

«/property» 

«property» 
«name»ssl.client.truststore.reload.interval«/name» 
«value»10000«/value» 

«/property» 

«/configuration» 


一 旦 配置 完成 ， 只 要 重启 集群 中 所 有 的 NodeManager 就 可 以 激活 加 密 的 洗 牌 处 理 。 加 密 的 洗 
牌 处 理会 增加 一 定 的 处 理 开 文 , 因为 洗 牌 处 理 除 了 要 执行 原 有 的 职责 以 外 , 还 不 得 不 进行 加 密 和 
解密 处 理 。 


可 以 在 Reduce 任 务 节 点 上 调试 SSL 连 接 。 要 实现 这 一 点 , 只 要 将 mapreduce.reduce.child. 
java.opts 属 性 设 为 javax.net .debug=all 这 个 Java 选 项 就 可 以 了 。 可 以 基于 每 个 作业 修改 这 
个 配置 ， 也 可 以 在 mapred-site.xml 文 件 中 修改 ,这样 就 可 以 调试 整个 集群 中 的 所 有 作业 了 。 下 面 
的 内 容 显 示 了 如 何在 mapred-site.xml 文 件 中 修改 这 个 属性 : 


7 
E 


«property» 
«name»mapred.reduce.child.java.opts«/name» 
«value»-Djavax.net.debug-all«c/value» 

«/property» 
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仅 在 调试 的 时 候 使 用 这 个 调试 属性 ， 且 要 谨慎 使 用 。 当 使 用 这 个 选项 时 ， 它 会 减 慢 作业 的 执 
行 时 间 。 通 过 在 NodeManager 上 设置 如 下 的 环境 变量 ， 也 可 以 启用 调试 : 


YARN NODEMANAGER OPTS-"-Djavax.net.debug-all" 


11.5 Hadoop 中 的 日 志 审计 


日 志 审 计 是 一 项 审计 人 处理 ， 记 录 了 Hadoop 中 发 生 的 所 有 操作 。 通 过 1o0g4j 属 性 ，Hadoop 已 
经 提供 了 HDFS 和 MapReduce 引 警 的 日 志 记 录 功 能 。 审 计 日 志 使 用 相同 的 框架 ， 但 它们 记录 更 多 
的 事件 ， 提 供 更 高 精度 的 Hadoop 操 作 。 使 用 log4j.properties 文 件 来 配置 日 志 。 


默认 情况 下 ，log4j.properties 文 件 将 日 志 打印 的 阔 值 设 为 ARN。 通 过 将 这 个 等 级 设 为 INFO， 
可 以 开启 日 志 审 计 。 下 面 的 内 容 显示 了 当 HDFS 和 MapReduce 开 启 审计 日 志 时 的 log4j.properties 的 
配置 : 


# 

# hdfs 审 记 日 志 相 关 配 置 

Lo 

hdfs.audit.logger-INFO,NullAppender 
hdfs.audit.log.maxfilesize-256MB 
hdfs.audit.log.maxbackupindex-20 
log4j.logger.org.apache.hadoop.hdfs.server.namenode.FSNamesystem 
.audit-$(hdfs.audit.logger) 
log4j.additivity.org.apache.hadoop.hdfs.server.namenode 
.FSNamesystem.audit-false 
log4j.appender.RFAAUDIT-org.apache.log4j.RollingFileAppender 
log4j.appender.RFAAUDIT.File-$(hadoop.log.dir)/hdfs-audit.log 
log4j.appender.RFAAUDIT.layout-org.apache.log4j.PatternLayout 
log4j.appender.RFAAUDIT.layout.ConversionPattern-$d(1808601) gp 
$c(2): $m$n 
log4j.appender.RFAAUDIT.MaxFileSize-$(hdfs.audit.log.maxfilesize) 
log4j.appender.RFAAUDIT.MaxBackupIndex-$(hdfs.audit.log 


.maxbackupindex) 
E 
# mapred 审 记 日 志 相 关 配 置 
# 


mapred.audit.logger-INFO,NullAppender 
mapred.audit.log.maxfilesize-256MB 
mapred.audit.log.maxbackupindex-20 
log4j.logger.org.apache.hadoop.mapred.AuditLogger-$(mapred. 
audit.logger) 
log4j.additivity.org.apache.hadoop.mapred.AuditLogger-false 
log4j.appender.MRAUDIT-org.apache.log4j.RollingFileAppender 
log4j.appender.MRAUDIT.File-$(hadoop.log.dir)/mapred-audit.log 
log4j.appender.MRAUDIT.layout-zorg.apache.log4j.PatternLayout 
log4j.appender.MRAUDIT.layout.ConversionPattern-$d(I1S08601) gp 
$c(2): $m£$n 
log4j.appender.MRAUDIT.MaxFileSize-$(mapred.audit.log.maxfilesize) 
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log4j.appender.MRAUDIT.MaxBackupIndex-$tmapred.audit.log 
.mnaxbackupindex) 


将 等 级 设 为 INFO,， 开启 了 hafs.audit. logger 和 mapred.audit .logger 属 性 。 随 后 这 些 
属性 又 会 被 赋 给 1o0g4j 属 性 ， 比 如 1o0g4j.logger.org.apache.hadoop.hdfs.server. 
namenode.FSNamesystem.audit, 另外 ， 也 可 以 调整 其 他 属性 来 控制 日 志 记 录 。 


11.6 小结 


安全 性 成 为 多 租户 及 分 布 式 环境 的 一 个 主要 特性 ,很 多 途径 都 可 能 导致 网 络 和 资源 共享 出 现 
言 息 泄露 ， 比 如 未 经 认证 的 访问 ， 亚 意 的 修改 ， 甚 至 拒绝 服务 等 。 开 局 诸如 认证 、 授 权 、 数 据 保 
护 和 数据 审计 等 安全 功能 ， 可 以 保护 Hadoop 集 群 免 受 攻击 。 


本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 0.20 以 后 , 为 了 确保 合 规 人 性、 保密 性 , 以 及 公平 地 使 用 共享 的 企业 集群 , 雅虎 引入 了 Hadoop 
安全 相关 的 功能 。 

口 基于 拓扑 学 和 法 规 的 要 求 , Hadoop 可 以 配置 基于 Kerberos 的 认证 或 简单 认证 。 用 户 的 信息 
可 以 从 诸如 LDAP 或 活动 目录 之 类 的 企业 用 户 存储 中 取得 。 

口 Hadoop 内 置 了 服务 级 和 资源 级 的 授权 。HDFS 的 授权 和 基于 UNIX 的 文件 授权 模式 非常 
相似 。 

O 通过 MapReduce 洗 牌 处 理 和 Web 端 点 中 的 HTTPS, Hadoop 提 供 了 数据 的 保密 性 。 只 需 调整 
几 个 参数 就 可 以 启用 HTTPS。 而 数据 不 在 传输 时 的 保密 性 则 委托 给 节点 的 操作 系统 。 

口 在 企业 中 ， 审 计 处 理 对 于 合 规 和 取证 来 说 非常 重要 。Hadoop 使 用 log4j 日 志 记 录 框 架 来 提 
供 日 志 审 计 功能 。 


下 一 章 ， 我 们 会 详细 探讨 Hadoop 的 应 用 ， 特 别 是 大 数据 分 析 方 面 。 


使 用 Hadoop 进 行 数据 分 析 


凭借 其 出 众 能 力 , Hadoop 在 辅助 数据 分 析 上 开始 如 露头 角 。 随 着 数据 在 容量 、 速 度 和 多 样 化 
上 的 快速 增长 , 我 们 需要 有 能 够 高 效 分 析 这 些 数 据 的 系统 。 硬件 上 的 垂直 扩展 已 经 不 适用 于 这 些 
数据 ,因为 垂直 扩展 太 昂 贵 而 且 很 难 管理 分布 式 计算 和 水 平 扩展 倒是 不 错 的 选择 ,而 且 像 Hadoop 
这 样 的 框架 可 以 自动 进行 容错 处 理 、 扩 展 和 分 布 式 计算 ,满足 了 这 样 的 系统 的 需求 。 


分 析 都 是 和 数据 有 关 的 。 一 个 常 被 问 起 的 问题 是 : 什么 情况 下 Hadoop 会 显得 大 材 小 用 ” 通常 
情况 下 ， 当 数据 集 的 容量 等 于 或 大 于 1 TB 时 ， 推 荐 使 用 Hadoop。 然 而 ， 当 数据 规模 的 增长 速度 
很 难 预测 时 ， 由 于 Hadoop 拥 有 “一 次 编写 ， 任 意 部 署 ” 的 特性 ， 因 此 使 用 Hadoop MapReduce 可 
能 也 是 一 个 好 主意 。 


也 有 一 些 机 构 使 用 Hadoop 分 析 几 百 个 G 左 右 容量 的 数据 。 由 于 用 户 的 Hadoop 作 业 在 较 长 时 间 
的 启动 和 磁盘 访问 上 需要 消耗 很 大 的 延 时 ， 因 此 数据 集 越 小 越 好 。Hadoop MapReduce 在 功能 方 
面 的 特点 使 其 很 容易 编码 和 实现 复杂 的 分 析 功 能 。 在 某 些 场景 中 , 当 数据 集 较 小 , 并 且 传 统 的 SQL 
由 于 其 分 析 特 性 而 变 得 无 用 武之 地 时 ， 使 用 Hadoop 并 且 直 接 与 文件 系统 交互 是 很 明智 的 做 法 。 

本 章 ， 我 们 将 讨论 如 下 主题 : 

a 数据 分 析 的 工作 流 

口 机 顺 学 习 简 明 介 绍 

O Apache Mahout 基 础 

D 使 用 Pig 和 Mahout 做 文档 分 析 的 数据 分 析 案 例 


12.4 数据 分 析 工 作 济 


数据 分 析 需 要 转换 数据 和 洞察 数据 内 部 , 并 以 此 找 出 内 部 有 意义 的 信息 。 信 息 摘 要 用 于 决策 
或 者 为 决策 提供 建议 。 下 图 展示 了 数据 分 析 的 工作 流 : 
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数据 收集 、 呈 现 、 


问题 识别 
存储 与 访问 


可 视 化 验证 决策 制定 


数据 分 析 工 作 流 主要 涉及 以 下 几 个 步骤 。 


(1) 第 一 步 是 识别 需要 解决 的 问题 。 由 于 后 续 的 步骤 都 依赖 于 这 步 ， 所 以 它 很 重要 。 例 如 ， 
在 问题 的 陈述 中 指明 需要 收集 哪 种 类 型 的 数据 ,以 及 问题 的 解决 方案 有 哪些 重要 的 特征 。 数 据 分 
析 需 要 各 个 领域 的 专业 知识 ， 所 以 还 必须 知道 问题 对 应 的 专业 知识 从 哪里 可 以 获取 到 。 


Q) 一 旦 问题 识别 出 来 了 ， 就 需要 收集 适当 的 数据 。 收 集 的 数据 使 用 一 种 空间 上 优化 的 表现 
格式 , 但 又 不 能 丢失 对 问题 解决 有 帮助 的 信息 。 现 在 的 企业 还 要 意识 到 合 规 和 安全 的 要 求 , 因此 
对 数据 的 访问 可 能 需要 受到 个 人 授权 的 限制 ， 而 某 些 情况 下 数据 可 能 是 需要 保密 的 。 

(3) 存储 的 数据 需要 清洗 。 清 洗 涉及 删除 异常 值 、 丢 失 值 和 错误 的 记录 。 分 析 结 果 的 好 坏 很 
大 程度 上 取决 于 数据 的 清洗 质量 。 如 果 没 有 清洗 数据 ， 那 么 分 析 结 果 很 可 能 是 对 事实 的 曲解 。 

(4) 清洗 后 的 数据 需要 转换 成 一 种 有 利于 数据 分 析 的 表现 形式 。 比 如 ， 将 数据 做 正规 化 转换 
为 0 到 1 之 间 的 值 ， 再 比如 ， 将 数据 的 规模 转变 为 容易 计算 的 状态 。 

(5) 转换 后 的 数据 将 使 用 算法 进行 分 析 。 机 器 学 习 的 算法 是 一 种 基于 先前 已 经 知道 的 经 验 性 
实例 来 提供 解决 方案 的 分 析 算 法 。 

(6) 一 旦 数据 被 转换 并 且 得 到 了 分 析 的 结果 ， 就 需要 验证 结果 的 有 效 性 。 验 证 可 以 通过 咨询 
领域 专家 或 者 应 用 到 用 户 的 测试 集 来 完成 。 验证 之 后 , 如果 分 析 的 结果 可 以 用 来 做 出 有 意义 的 决 
策 ， 那 分 析 的 过 程 就 可 以 结束 了 。 否则 ,数据 科学 家 和 相关 人 员 将 回 到 图 板 前 , 调整 工作 流 的 参 
数 并 重新 分 析 。 


(7) 验证 后 的 结果 将 以 可 视 化 的 方式 呈现 给 利益 相关 人 ( 可 以 包括 使 用 者 )， 以 确认 其 是 否 有 | 
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效 。 这 个 阶段 要 决定 使 用 什么 合适 的 可 视 化 表现 方式 。 
(8) 最 后 ， 分 析 的 结果 用 于 帮助 做 出 决策 。 
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机 器 学 习 是 通过 编程 使 得 计算 机 可 以 基于 先前 的 经 验 优 化 出 一 个 函数 。 提 供 经 验 数 据 给 计算 
机 ,让 它 构 建 一 个 可 以 对 真实 世界 中 遇 到 的 未 知 数据 做 出 预测 的 模型 函数 。 计算 机 基于 参数 和 提 
供 的 经 验 数据 构建 这 样 的 函数 , 并 可 以 随 着 经 验 数据 的 增加 或 者 数据 特征 的 变化 而 不 断 演进 。 在 
后 期 环节 ， 这 个 模型 函数 会 应 用 到 未 知 的 数据 上 ， 并 基于 模型 六 数 预测 输出 。 用 于 学 习 这 个 模型 
函数 的 经 验 数据 称 为 训练 数据 ( training data )。 


下 面 是 儿 种 机 咒 学 习 的 算法 。 


OQ 监督 学 习 (supervised learning): 提供 给 监督 学 习 的 训练 数据 是 打 了 标签 的 。 训 练 数据 集 
中 的 每 个 数据 点 都 是 一 对 对 象 : 原始 的 数据 点 所 表示 的 状态 (通常 以 向 量 形式 表示 的 值 ) 
和 此 状态 对 应 的 一 个 期 望 值 。 一 位 熟悉 这 个 领域 数据 的 专家 标注 这 个 状态 对 应 的 期 望 值 ， 
并 把 这 个 期 望 值 称 为 标签 ( label ) 或 者 监督 符号 。 这 种 算法 在 训练 数据 集 上 执行 ， 并 由 
此 推导 出 一 个 数学 图 数 。 这 个 函数 尽 可 能 的 通用 化 ， 被 称 为 模型 (model). 1x8 KA 
应 用 于 任何 未 知 的 数据 时 ， 都 会 得 到 一 个 输出 值 。 这 个 模型 在 预测 上 的 准确 率 决定 了 它 
有 多 强 的 能 力 。 
口 非 监督 学 习 (unsupervised learning ): 提供 给 非 监督 学 习 算法 的 训练 数据 是 没有 打 标 签 的 。 
这 就 要 求学 习 算 法 能 够 学 习 到 数据 中 蕴含 的 结构 信息 。 聚 类 (clustering) 是 非 监督 学 习 
方法 的 一 个 例子 ， 它 将 没有 标签 的 数据 基于 不 同 数据 点 之 间 的 距离 来 分 组 。 
O 半 监 督学 习 ( semi-supervised learning ): 它 将 少数 带 有 标签 的 数据 点 混合 到 没有 标签 的 经 
验 数据 中 ， 因 此 是 一 种 混合 监督 学 习 和 非 监督 学 习 的 算法 。 
下 页 图 展示 了 机 需 学 习 的 过 程 。 
机 需 学 习 过 程 主要 包括 以 下 几 个 步 又 。 
(1) 机 需 学 习 的 第 一 步 是 明确 要 解决 的 问题 以 及 对 于 这 个 问题 已 有 的 训练 数据 由 什么 组 成 。 
这 需要 指明 测试 数据 点 的 粒度 应 该 多 大 以 及 数据 点 数量 应 为 多 少 。 问题 领域 的 专家 对 于 决定 测试 
数据 的 粒度 和 大 小 是 非常 有 帮助 的 。 
Q) 一 旦 问题 确定 ， 下 一 步 就 是 从 实际 世界 中 收集 训练 数据 。 在 监督 学 习 的 情况 下 ， 收 集 的 数 
据 可 能 需要 专家 打 标 签 , 打 标签 的 训练 数据 的 最 优 大 小 也 许 是 决定 这 个 模型 函数 准确 率 的 最 关键 因 
素 。 通 常 ， 通 过 专家 给 训练 数据 打 标签 非常 昂贵 ， 且 需要 恰当 的 计划 安排 。 同 时 也 是 因为 手动 打 标 
签 的 缘故 ， 它 不 可 能 对 很 大 规模 的 数据 点 完成 打 标 签 ， 因 此 ， 半 监督 学 习 技 术 变 得 越 来 越 受 欢迎 。 
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人 


确定 训练 数据 
是 怎么 构成 的 [———?| 收集 训练 数据 
/ Y REEL 
通过 在 训练 数据 上 jp ^ 
得 到 的 精确 度 来 检 |e ] BALXRERAT 
测 有 效 性 L7 i 


—— 


通过 在 测试 数据 集 A. 
检测 有 效 性 ! 


确定 构建 模型 的 
输入 特征 


选择 一 种 学 习 算法 


(D) 训练 数据 点 现在 需要 解析 成 一 组 特征 集 。 这 种 对 数据 点 进行 特征 化 的 操作 能 够 准确 表达 
数据 收集 时 的 原始 状态 。 选 择 正确 的 特征 集 是 获得 好 的 模型 函数 的 关键 。 过 多 的 特征 会 使 处 理 变 


得 非常 缓慢 ， 而 过 少 的 特征 会 导致 准确 率 降低 。 


(4) 下 一 步 是 选择 一 种 好 的 学 习 算 法 来 学 习 这 个 函数 。 这 往往 需要 根据 问题 的 本 身 特点 ， 从 


众多 的 算法 中 进行 挑选 。 分 类 (classification) 这 种 算法 输出 的 模型 函 


数 能 够 决定 某 个 特定 的 数 


据点 属于 哪 种 类 别 ; 聚 类 算法 将 一 个 数据 集 基 于 距离 的 度量 分 成 很 多 个 分 组 。 


(5) 当 合适 的 算法 选 好 后 ， 就 给 予 它 训练 数据 和 人 参数。 学 习 算 法 的 输出 是 一 个 模型 函数 。 学 
习 参 数 可 以 用 来 调整 这 个 模型 函数 的 特征 。 例 如 ， 正 则 化 (regularization ) 参数 用 于 使 模型 函数 


学 习 算法 输出 的 聚 类 数量 。 
(6) 验证 ( validation ) 是 机 器 学 习 工作 流 中 最 为 重要 的 步骤 之 一 ， 


具有 一 般 形式 ， 以 解决 过 度 拟 合 ( overfitting ) 的 问题 。 在 聚 类 的 场景 中 ， 一 个 参数 能 决定 这 个 


它 能 够 确定 学 习 模 型 的 优 


势 和 劣势 。 可 以 使 用 学 习 到 的 模型 函数 在 随机 选择 的 训练 数据 子 集 上 进行 验证 。 在 监督 学 习 的 场 
景 中 ， 由 于 我 们 事先 知道 数据 的 标签 ,因此 很 容易 就 能 够 计算 学 习 到 的 模型 的 准确 率 。 如 果 发 现 
学 习 模 型 的 准确 率 较 低 , 我 们 可 以 回 到 第 4 或 第 5 步 , 通过 修改 算法 或 者 调整 参数 来 获得 更 好 的 模 


型 函数 。 


(7) 接 下 来 用 验证 后 的 机 器 学 习 模型 对 测试 数据 集 进 行 预测 。 这 也 是 一 些 打 了 标签 的 数据 集 ， 


但 是 不 在 训练 数据 里 面 。 可 以 通过 这 个 数据 集 确定 操作 参数 和 模型 特 和 
能 够 用 于 预测 真实 世界 里 面 的 未 知 数据 。 


F， 然 后 ， 这 些 操作 参数 就 


(8) 最 后 一 步 是 部 署 和 操作 学 习 到 的 模型 ， 以 使 其 能 够 按照 第 7 步 得 到 的 参数 运行 。 未 知 的 数 


据 会 提供 给 学 习 模 型 ， 并 要 求 其 给 出 预测 的 结果 。 这 个 预测 的 结果 可 以 用 于 驱动 商业 决策 。 
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(9) 学 习 到 的 模型 可 以 周期 性 地 使 用 新 获取 的 知识 或 者 用 户 和 利益 相关 者 的 反馈 来 不 断 更 
新 。 收 集 新 的 训练 数据 ， 然 后 重复 步骤 1 到 8， 从 而 更 新 模型 。 


机 器 学 习 (machine learning ) 和 数据 挖 振 ( data mining) 这 两 个 术语 经 常会 
在 同一 个 语 境 下 出 现 。 数据 挖 握 领 域 涉及 在 大 规模 的 数据 集中 发 现 模 式 。 机 器 当 
习 和 数据 挖 气 之 间 的 不 同 如 下 所 示 : 


O 机 器 学 习 可 以 作为 数据 挖 握 过 程 中 的 一 个 工具 使 用 ; 

口 机 器 学 习 解 决 特定 的 任务 ， 而 数据 挖 握 探 索 数据 的 本 质 ; 

口 机 器 学 习 是 在 未 知 的 数据 上 识别 已 知 的 信息 ,而 数据 挖 气 是 发 觉 数据 的 未 
知 信息 Ao 


12.3 Apache Mahout 


Apache Mahout 是 一 个 可 扩展 的 机 器 学 习 库 ， 也 是 Apache 软 件 基 金 会 旗下 的 一 个 开源 库 。 它 
支持 分 布 式 平台 上 的 算法 , 包括 聚 类 、 分 类 和 协同 过 滤 ( collaborative filtering ) 等 。Apache Mahout 
欢迎 贡献 者 贡献 任何 算法 到 库 中 。 算 法 的 代码 并 不 一 定 要 是 在 分 布 式 系统 中 执行 , 也 可 以 在 单个 
机 器 上 执行 。 


由 于 Apache Mahout 允 许 用 户 引 入 单机 算法 ， 因 此 建议 你 在 Hadoop 上 执行 该 
算法 前 先 了 解 它 的 实现 方式 。 


Apache Mahout 有 一 些 算法 是 使 用 MapReduce 实 现 的 ， 这 些 算法 可 以 在 Hadoop 上 执行 以 充分 
利用 分 布 式 集群 的 并 行 度 。 再 次 提醒 在 Hadoop 执 行 上 这 些 算法 前 你 应 该 学 习 这 些 算法 的 实现 。 
在 Hadoop 集 群 上 执行 一 个 非 MapReduce 实 现 的 算法 可 能 无 法 获得 任何 的 加 速效 果 。 


近期 也 就 是 从 2014 年 4 月 开始 ，Mahout 已 经 停止 接受 使 用 MapReduce 模 型 
编写 的 算法 。 然 而 , Mahout 承 诺 会 支持 所 有 已 经 在 库 中 且 使 用 了 MapReduce 模 型 
编程 的 算法 。 


下 面 列 出 了 Apache Mahout 所 支持 的 用 例 ， 以 及 可 以 在 Hadoop 上 执行 并 利用 Hadoop 和 集群 并 行 
度 的 算法 。 


口 分 类 : 这 是 一 个 学 习 如 何 将 数据 点 放 在 不 同 分 类 的 监督 学 习 方法 ， 未 知 数据 将 会 被 划分 
到 其 中 的 一 个 分 类 中 。 在 分 类 的 用 例 中 ，Mahout 支 持 贝 叶 斯 分 类 器 和 随机 森林 分 类 器 的 
并 行 实现 。 贝 叶 斯 分 类 器 使 用 贝 叶 斯 规则 和 条 件 概率 来 做 二 元 分 类 。 随 机 森林 分 类 器 以 
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决策 树 为 内 核 ， 但 使 用 的 是 很 多 决策 树 组 合 在 一 起 的 方法 。 

口 RX: 这 是 一 种 非 监督 学 习 方 法 ， 它 将 训练 数据 的 点 划分 到 相干 的 分 组 中 。Mahout 支 持 
很 多 聚 类 算法 的 分 布 式 实现 ， 例 如 ，k-means 就 是 一 个 广 受 欢迎 的 聚 类 算法 ， 有 它 的 分 布 
式 和 并 行 化 实现 。k-means 对 数据 点 进行 分 组 的 核心 是 要 使 数据 点 之 间 的 平均 距离 最 小 。 
模糊 的 k-means 聚 类 算法 也 是 和 Hadoop 兼 容 的 。 在 这 个 聚 类 算法 中 ， 聚 类 并 不 是 唯一 的 ， 
它 允许 一 个 数据 点 被 聚集 在 不 同 的 组 中 。 在 聚 类 的 体系 中 ,分 级 式 Chierarchical )、Latent 
Dirichlet Allocation. ( LDA ) Mean shift, MinHash, Dirichlet Process 、Canopy 和 和 Spectral 
聚 类 算法 也 在 Mahout 库 中 有 分 布 式 实现 。 

口 协同 过 滤 : 它 基于 已 获得 的 用 户 数据 做 出 推荐 。 基 于 分 布 式 项 的 协同 过 滤 算 法 和 基于 并 
行 矩 阵 分 解 的 协同 过 滤 算 法 有 Hadoop 兼 容 的 实现 。 前 者 使 用 用 户 对 其 他 项 的 偏好 来 预测 
他 们 对 某 一 类 似 项 的 偏好 ， 而 后 者 通过 未 知 项 的 和 矩阵 来 预测 用 户 的 偏好 。 

口 频繁 项 集 挖掘 (frequent itemset mining ): 这 也 叫 购 物 篮 分 析 ， 这 个 算法 分 析 典 型 情况 下 
哪个 物品 和 当前 的 物品 经 常 一 起 出 现 ， 由 一 个 并 行 FP 增 长 算法 的 并 行 实现 决定 物品 之 间 
的 关联 。 


12.4 ”使 用 Hadoop 和 Mahout 进行 文档 分 析 


在 本 节 ， 我 们 将 使 用 一 个 文档 分 析 的 例子 来 展示 使 用 Hadoop 和 Mahout 进 行 数据 分 析 工 作 。 
我 们 将 使 用 Pig 作 为 MapReduce 的 高 阶 抽象 ， 计 算 文 档 间 的 距离 时 所 使 用 的 评分 算法 为 Tf-idf。 这 
种 距离 度量 方法 在 信息 检索 和 文本 分 析 领 域 非常 流行 , 它 是 基于 文档 中 的 单词 出 现 的 统计 信息 来 
实现 的 。 

Tf-idf 上 基于 查询 项 对 文档 进行 排序 ， 它 广泛 适用 于 文本 检索 场景 。 查询 项 与 文档 的 距离 决定 
了 查询 项 与 文档 的 相似 程度 ， 这 种 距离 可 以 用 来 将 文档 排序 。 

此 例 中 , 我们 将 会 使 用 NSF 授 权 的 摘要 文档 ,可 以 从 下 面 的 地 址 获取 它们 : http://kdd.ics.uci. 


edu/databases/nsfabs/nsfawards.html。 这 个 数据 集 由 120 000 个 摘要 文档 组 成 , 分 为 三 个 部 分 , 每 个 
摘要 文档 都 是 独立 的 文本 文件 。 


Tf-idf 是 词 频 - 逆 文 频 ( term frequency-inverse document frequency ) 的 缩写 。 它 是 两 项 指标 的 
乘积 : 词 频 (#f) 和 逆向 的 文 频 Caf). 


12.4.4 iu 


正如 这 个 词 的 字面 意思 所 示 ,， 词 频 ( term frequency ) 是 指 一 个 词语 在 一 个 特定 文档 中 出 现 的 
次 数 , 一 个 词 在 文档 里 面 出 现 的 频率 越 高 , 这 个 词 与 该 文档 的 联系 就 越 紧 密 。 例 如 , 如 果 “Hadoop” 
这 个 词 在 文档 A 中 出 现 10 次 ， 在 文档 B 中 出 现 15 次 ， 那 么 就 Hadoop 这 个 词 的 语 境 而 言 ， 文 档 B 的 
相关 性 要 超过 文档 A。 这 种 一 目 了 然 的 直观 性 促使 我 们 将 词 频 作为 度量 项 来 计算 。 om 
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不 同 规模 的 文档 其 词语 数量 可 能 千差万别 ， 例 如 ， 一 个 较 大 的 文档 〈 假 设 有 1000 个 词语 ) 可 
能 出 现 “Hadoop” 这 个 词语 10 次 ,而 男 一 个 文档 ( 假设 有 100 个 词语 ) 可 能 出 现 5 次 。 如 果 据 此 说 
较 大 的 文档 与 “Hadoop” 这 个 词语 的 相关 性 更 强 ， 那 可 能 很 不 公平 ， 因 为 较 小 的 文档 中 Hadoop 
这 个 词 占 所 有 词 的 百分比 要 更 高 。 因 此 , 在 计算 词 频 的 时 候 , 需要 将 词语 出 现 的 次 数 除 以 词语 的 
总 数 以 使 其 归 一 化 。 


事实 上 ,一 个 词语 t 对 于 文档 gd 的 词 频 可 以 由 下 面 公式 给 出 : 


词 频 (t, d) = 词语 t 在 文档 gd 出现 的 次 数 /文档 d 中 词语 的 数量 


124.2 X 


仅仅 使 用 词 频 可 能 还 无 法 公平 地 决定 一 个 单词 对 于 一 个 文档 的 重要 性 , 因为 有 一 些 词语 在 英 
语词 汇 中 出 现 的 频率 非常 高 。 例 如 ,“and”“the” 和 “in” 出 现 的 频率 就 比 其 他 的 词 高 得 多 。 我 
们 称 这 些 词 为 终止 词 (stop word )。 


还 有 一 些 词 出 现 的 频率 和 它们 来 源 的 语料库 关系 密切 。 例 如 , 来 自 某 个 机 构 的 文档 可 能 都 包 

含 这 个 机 构 的 名 字 。 这 些 词语 和 终止 词 一 样 , 在 比较 判断 某 组 词汇 对 于 一 个 文档 的 重要 性 时 ,， 没 
贡献 任何 有 用 的 信息 。 

文 频 ( document frequency ) 用 于 消除 或 减轻 这 种 高 频 词 在 计算 文档 距离 时 和 带 来 的 负面 影响 。 
为 了 实现 这 个 功能 , 需要 计算 一 个 词语 出 现在 一 个 文档 语料库 中 的 文档 的 数量 。 这 个 值 越 大 , 就 
意味 着 这 个 词 在 区 分 这 些 文档 相关 性 上 贡献 的 信息 就 越 少 。 因此 , 逆向 文 频 可 用 于 减少 这 类 高 频 
词 的 影响 。 

事实 上 ， 首 向 文 频 可 以 按 如 下 公式 计算 : 

逆向 文 频 (t) = log (语料库 中 文档 的 数量 /词语 t 出 现 的 文档 数量 ) 

用 文 频 除 以 语 料 中 文档 的 总 数 ， 可 以 产生 归 一 化 的 数值 ， 因 此 结果 在 0 到 1 之 间 。 对 整个 分 数 
使 用 log 函 数 是 为 了 将 这 个 值 保持 在 一 个 合理 的 范围 内 ， 因 为 文档 的 数量 可 能 非常 巨大 (例如 互 
联网 文档 集中 的 文档 数量 )。 


12.4.3” 词 频 - 逆 向 文 频 
词 频 和 逆向 文 频 的 乘积 ， 能 指示 某 一 给 定 的 词语 与 文档 之 间 的 重要 性 : 
词语 t 和 文档 d 的 Tf-idf = 词语 t 在 文档 d 的 词 频 * 词语 t 的 逆向 文 频 。 


语 料 中 的 每 个 词语 和 每 个 文档 都 有 一 个 Tfidf， 明 白 这 一 点 很 重要 。 这 些 Tf-idf 分 数 被 存储 在 
反 向 索引 的 全 文 搜索 引擎 中 , 并 用 于 度量 查询 词 与 文档 之 间 的 距离 。 这 个 反 向 索引 的 存储 是 很 稀 
芯 的 格式 ， 也 就 是 说 ， 只 有 当 一 个 词语 出 现在 一 个 文档 中 的 时 候 ，Tf-idf 评 分 才 会 和 一 个 文档 关 
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联 。 一 个 没有 出 现在 文档 中 的 词语 的 Tf-idf 评 分 是 9， 因为 这 个 词 在 文档 中 的 词 频 为 0。 这 些 值 为 0 
的 Tf-idf 不 会 存储 在 反 向 索引 中 。 


12.4.4 ”Pig 中 的 Tf-idf 
下 面 的 步 又 演示 了 如 何 计算 之 前 描述 过 的 NSF 授 权 摘 要 文件 的 Tf-idf。 


(1) 前 提 条 件 是 将 所 有 文档 加 载 到 HDFS 中 。 这 可 以 通过 使 用 nadoop fs -cp 命令 "来 完成 。 
下 一 步 是 将 文件 加 载 到 Pig 关 系 中 ， 这 样 我 们 就 可 以 基于 这 些 关 系 运行 数据 的 计算 和 转换 。 
PigStorage 类 用 于 将 一 个 文档 读 入 一 个 关系 ， 它 以 文件 名 和 文档 中 的 句子 作为 chararray 
(file_angd_sentence)。 我 们 使 用 -tagsource 指 令 去 通知 Pigstorage 类 给 关系 中 的 元 组 
( tuple ) 打 上 文件 名 的 标签 , 这 是 为 了 标志 它 属于 某 个 文档 。 由 于 Tf-idf 评 分 是 词语 和 文档 关联 的 ， 
因此 文件 名 起 到 一 个 文档 标识 的 作用 。 


(2) 一 旦 加 载 了 7 关系， 下 一 步 就 是 将 句子 切 分 成 单词 。 这 些 词语 将 用 于 后 期 的 计算 。 我 们 使 
用 Pig 函 数 TOKENIZE 来 将 句子 切 分 为 单词 , 也 可 以 用 一 个 更 为 成 熟 的 正则 表达 式 来 分 词 。 分 词 的 
输出 是 男 一 个 关系 ，fiel_ang_words, 这 包含 了 文件 名 以 及 和 句子 相对 应 的 单词 。 对 于 每 个 文 
件 ， 我 们 将 得 到 很 多 这 样 的 元 组 ， 元 组 的 数量 取决 于 文件 中 出 现 的 句子 的 数量 。 


(3) 这 些 元 组 将 通过 一 个 过 滤器 ， 从 而 去 除 所 有 没有 包含 字母 数字 式 字 符 的 词语 。 使 用 正则 
表达 式 \w+ 来 完成 这 个 过 滤 。 现 实 中 还 会 使 用 终止 词 列表 来 过 滤 掉 那些 普通 的 常见 词 。 


(4) 下 一 步 ， 所 有 剩 下 来 的 词语 都 将 转换 为 小 写 ， 这 样 相 同 的 词语 其 表现 形式 也 是 统一 的 。 
这 是 对 于 词语 的 一 种 非常 简单 的 转换 方式 。 实 践 中 ， 类 似 于 stemming 和 lemmatization 这 样 的 操作 
在 这 一 步 可 以 帮助 将 单词 的 各 种 变形 形式 转换 为 相同 的 表现 形式 。 例 如 ，swimmers 和 swimmer 可 
以 表现 为 一 个 单词 ， 也 就 是 swimmer。 有 很 多 实现 stemming 的 算法 ， 并且 大 部 分 知名 的 自然 语言 
处 理 的 库 都 内 置 了 这 样 的 算法 。Porter Stemmer 是 一 个 很 受 欢迎 的 算法 : 

/* 这 是 一 个 Pig 的 模板 文件 ， 用 于 取得 所 有 NSF 授 权 摘 要 文件 的 Tf-idf。 在 开始 前 ， 

* 1) 解压 你 本 地 路 径 中 的 zip 文 件 


* 2) 使 用 bin/hadoop fs -cp 命令 
ud 


/* 我 们 加 载 所 有 位 于 hdfs 的 grants 目 录 中 的 文件 。 使 用 下 面 的 命令 可 以 完成 这 项 工作 。PigStorage 类 能 帮助 
我 们 取得 文件 名 和 文档 中 的 身子 。 命 令 结束 后 ， 你 将 得 到 (文件 名 ,身子 ) 这 样 的 元 组 。 有 必要 的 话 ， 请 注意 更 
改 hqfs 的 加 载 目录 。 

*7 


file and sentence = load 'grants/*' using PigStorage('\t', 
'-tagsource') as (file name: chararray, sentence: 


(D 可 能 是 作者 笔 误 ， 此 处 应 该 使 用 -put 命 令 。 译 者 注 
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chararray); 


/* 现在 我 们 使 用 pig 的 TOKENIZBE 函 数 将 每 个 身子 进行 分 割 ， 然 后 将 分 片 展开 。 这 一 步 完成 后 ， 我 们 将 得 到 (X. 
件 名 ， 单 词 1， 单 词 2 . . .) 。 这 些 单词 的 元 组 就 是 由 和 句子 分 解 而 来 。 
*/ 


file and words - foreach file and sentence generate 
file name as file name,flatten(TOKENIZE(sentence)) as 
words; 


filtered file and words - filter file and words by (words 
matches '\\w+'); 


/x 现 在 我 们 将 每 个 文件 和 身子 的 单词 进行 分 组 。Pig 中 的 分 组 操作 将 得 到 (分 组 ，{ 分 组 的 成 员 }) 。 对 分 组 做 
flatten 操 作 将 产生 更 多 的 元 组 。 请 参考 这 个 文档 以 理解 更 多 细节 。 NU TRAP aS ES E 整洁 的 元 组 格式 ( 文 
件 名 ， 单 词 ， 单 词 数 ) 。http://pig.apache.org/docs/r0.9.1/basic.html#flatten 


lowercased file and word = foreach filtered file and words 
generate file name as file name, LOWER(words) as word; 


(5) 当 我 们 恰当 地 清洗 和 转换 数据 后 ， 使 用 Pig 中 的 GROUP BY 操作 按 文件 名 和 单词 分 组 。 这 
会 对 某 个 文件 中 的 所 有 单词 进行 分 组 。 这 个 分 组 的 键 是 文件 名 ， 并 被 表示 为 file_and_words_ 
groups 的 关系 ， 如 下 Pig 代 码 片段 所 示 。 


(6) 我 们 现在 根据 每 个 分 组 中 单词 的 数量 就 可 以 计算 每 个 文档 中 单词 的 数量 。file_ang_ 
worgd_and_count 关 系 展示 了 此 项 数据 。 这 个 关系 中 的 元 组 包括 文件 名 、 单 词 、 单 词 在 这 个 文件 
出 现 的 次 数 。 这 这 就 是 词 频 。 


(7) 将 file_ang_worgd_and_count 用 不 同 的 方法 分 组 ， 也 就 是 基于 文件 名 ， 我 们 可 以 得 到 
某 个 文档 中 单词 的 数量 。 将 每 个 分 组 内 这 个 单词 的 计数 累加 起 来 ，unnormalizeqd_ 
term_counts 关 系 给 出 了 每 个 文件 中 单词 的 数量 。 


(8) 每 个 文件 中 的 单词 计数 可 以 用 来 规范 和 计算 词 频 。 在 这 个 例子 中 ，term_frequencies 
关系 代表 了 词 频 。 它 是 通过 词 频 除 以 文档 中 单词 的 数量 计算 得 到 : 


file and words groups = group lowercased file and word by (file name, word); 


file and word and count - foreach file and words groups 
generate flatten(group) as (file name:chararray, word:chararray), 
COUNT STAR(lowercased file and word) as count; 


/* 现在 我 们 拥有 了 格式 为 (文件 名 ， 单 词 ， 单 词 数 ) 的 数据 。 我 将 让 你 来 处 理 练习 的 剩余 部 分 。 */ 


/* 现在 我 们 可 以 进行 合适 的 分 组 ， 然 后 得 到 不 同 的 统计 。 比 如 ， 使 用 下 面 的 Pig 命 令 我 们 可 以 得 到 每 个 文件 中 单 
词 的 数量 。 当 我 们 尝试 规范 化 tf 或 idf 分 数 时 ， 需 要 注意 到 JOIN 操作 可 能 很 重要 。 */ 
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group file and word, and count - group 
file and, word, and, count by file name; 


/* 将 文档 大 小 添加 到 单词 数量 的 元 组 */ 
unnormalized term counts = foreach 
group. file and, word, and, count generate group as 
file name, flatten(file and word, and count. (word, 


count)) as (word, count), 
SUM(file and word and count.count) as 
doc, size; 


/* 生成 tf 评分 */ 
term frequencies = foreach unnormalized term counts 
generate file name as file name, word as term, 
((double)count / (double)doc size) as term freq; 


(9) 通过 对 term_frequencies 基 于 单词 进行 分 组 并 计算 分 组 中 每 个 元 素 的 数量 , 我 们 得 到 
了 某 个 特定 单词 的 文 频 。 在 下 一 段 代码 中 ， 关 系 doc_term_count 展 现 了 包含 这 个 单词 的 文档 
的 数量 。 


(10) E an a 化 处 理 。 将 关系 file_angd_sentence 
对 文件 名 进行 分 组 可 以 做 到 这 点 。 分 组 的 计数 表示 了 语料库 中 文件 的 数量 。 


(11) 最 后 ，Tf-idf 可 以 通过 先前 讨论 的 公式 ， 按 每 个 单词 和 文件 进行 计算 。 然 后 我 们 将 评分 
井 行 排序 ， 以 验证 我 们 的 计算 结果 。 拥 有 最 高 评分 的 单词 -文档 对 表示 的 意思 是 : 对 于 这 个 文档 
言 这 些 单词 的 相关 性 最 高 。 

/* 生成 文 频 */ 


group term frequencies = group term frequencies by term; 


doc term count - foreach group term frequencies generate 
FLATTEN(term frequencies) as (file name, term, 
term freq), COUNT STAR(term frequencies) as 
doc. freq; 


/* 生成 语料库 中 文档 的 数量 */ 
doc groups = foreach (group file and sentence by file name) 
generate group as file name; 


doc count = foreach(group doc groups all) generate 
COUNT (doc. groups) as n, docs; 


/* 生成 最 终 的 tf-idf 评 分 */ 
scores = foreach doc term count generate file name as 
file name, term as term, term freq * 
LOG ( (double)doc_count.n_docs/ (double)doc_freq) 
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as tf_idf; 


ordered_scores = order scores by tf_idf ; 


12.4.5 “余弦 相似 度 距 离 度量 


在 上 一 节 我 们 看 到 了 如 何 计算 Tf-idf 评 分 。 一 个 文档 可 以 表示 为 这 个 文档 中 出 现 的 单词 的 
Tf-idf 评 分 向 量 。 对 于 没有 出 现 的 单词 ，Tf-idf 评 分 为 0。 有 了 这 种 向 量 表示 的 文档 ， 接 下 来 就 会 
面临 一 个 问题 : 如 何 找 出 两 个 文档 之 间 的 距离 , 或 者 以 搜索 引 警 为 例 ， 如 何 找 到 文档 与 一 个 查询 
之 间 的 距离 。 两 个 文档 或 者 文档 与 查询 之 间 的 距离 最 小 ， 意 味 着 它们 一 定 是 最 相似 或 者 最 相关 。 


距离 的 度量 有 多 种 。 一 种 常用 的 距离 度量 是 寻找 欧 几 里 得 距离 ,或 者 谨 两 个 文档 ( 或 文档 与 
查询 ) 之 间 的 向 量 的 差 。 绪 果 向 量 取决 于 减法 中 两 个 向 量 的 长 度 。 欧 几 里 得 距离 会 导致 较 长 的 文 
档 之 间 更 为 相似 ， 而 不 同 大 小 的 文档 之 间 的 相似 性 会 被 降低 。 这 可 能 不 是 一 种 非常 准确 的 、 用 来 
度量 两 个 文档 之 间 的 距离 的 方法 ,特别 是 在 文本 分 析 的 环境 下 : 

ID1 - D2| 


or 
ID1 - Ql 


如 果 考 虑 两 个 向 量 之 间 的 夹 角 , 文档 距离 的 表达 将 更 为 准确 。 在 文本 分 析 中 ， 两 个 文档 的 距 
离 是 计算 两 个 Tf-idf 文 档 向 量 的 夹 角 的 余弦 值 。 文 档 与 查询 之 间 的 距离 计算 也 与 之 相同 ， 因 为 查 
询 是 作为 一 个 小 文档 来 处 理 的 。 

从 三 角形 的 基本 原理 可 知 , 如 果 两 个 向 量 间 夹 角 的 余弦 值 越 大 , 那 这 两 个 向 量 代表 的 文档 就 
越 相似 。0 度 角 的 余弦 值 是 1， 代表 文档 是 相同 的 或 者 非常 相似 的 。 文 档 如 果 表 现 为 正 交 向 量 , 其 
值 也 接近 于 0， 因 为 90 度 角 的 余弦 值 是 0。 

两 个 向 量 的 余弦 值 可 以 由 这 两 个 向 量 的 内 积 来 计算 ， 如 下 公式 所 示 : 

文档 i 和 j 的 余弦 相似 度 = dli * dij «d2i * d2j + ... + dki * dkj 


然后 将 结果 除 以 两 个 向 量 的 长 度 ， 以 使 得 余弦 相似 度 归 一 化 。 


12.4.6 ”使 用 k-means 的 聚 类 


k-means 是 一 个 广 受 欢迎 的 聚 类 算法 。 它 被 内 置 到 Apache Mahout 库 并 且 能 够 运行 在 Hadoop 
上 。 它 是 一 个 非 监督 学 习 的 方法 ， 将 数据 点 按照 距离 篮 集 中 心 点 距离 最 小 的 原则 来 分 组 。 


当 指 定数 据点 必须 分 入 k 个 簇 集 时 ， 可 按 如 下 方式 实施 k-means 算法 。 


(1) 第 一 步 是 初始 化 x 个 簇 集 的 中 心 点 。 这 些 中 心 点 是 随机 初始 化 的 。 有 些 情况 下 ， 如 果 事 先 
已 经 对 一 些 簇 集 有 所 了 解 , 那 么 这 些 簇 集 的 放置 方式 就 是 知晓 的 ,这 样 可 以 减少 算法 的 计算 时 间 。 
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Q) 在 此 例 中 ， 每 个 数据 点 ， 也 就 是 文档 的 Tf-idf 向 量 ， 会 分 配给 最 靠近 的 簇 集中 心 。 这 种 相 
似 的 概念 是 通过 不 同 的 距离 或 相似 度 来 表示 的 。 在 前 面 我 们 已 经 学 习 了 两 种 距离 度量 一 一 欧 几 里 
得 距离 和 余弦 相似 度 距离 。 

(3) 当 所 有 的 数据 点 都 被 分 配 完成 后 ， 下 一 步 就 是 重新 调整 簇 集 的 中 心 。 对 第 2 步 中 分 配给 入 
集中 心 的 所 有 点 取 平 均值 ， 根 据 这 个 平均 值 来 调整 簇 集中 心 。 


(4) 第 2 步 和 第 3 步 将 不 断 循环 直到 收敛 ,或 者 达到 了 指定 的 迭代 次 数 。 


12.4.7 ”使 用 Apache Mahout 进 行 k-means 聚 类 


在 本 节 , 我 们 将 会 看 到 如 何在 Hadoop 和 Apache Mahout 上 运行 kmeans 聚 类 。 我 们 将 在 之 前 讨 
论 的 授权 文档 上 执行 这 个 聚 类 算法 。 


安装 Apache Mahout 需 要 从 http://mahout.apache.org 下 载 二 进 制 安装 包 。 下 载 
后 将 文件 提取 出 来 ， 设 置 如 下 的 环境 变量 ， 从 而 让 Mahout 知 道 Hadoop 的 安装 信 


za 
息 
> 


export HADOOP_ HOME=<Path to Hadoop installation folder> 
export MAHOUT HOME-«Path to Mahout installation folder» 
export PATH-S$PATH:S$HADOOP HOME/bin:$MAHOUT HOME/bin 


Mahout 库 有 很 多 有 趣 的 命令 行 选 项 。 
我 们 将 通过 执行 如 下 的 命令 行 来 检验 Mahout 提 供 的 不 同步 又 和 选项 : 
# 将 授权 文档 转换 成 一 个 sequence 文 件 。 将 所 有 文件 合并 成 一 个 单一 的 文件 。 


bin/mahout seqdirectory -i /user/hadoop/grants -o 
/user/hadoop/grants-seqdir -c UTF-8 -chunk 5 


# 使 用 seqdumper 显 示 sequence 文 件 。 观 察 所 有 文件 的 构成 。 
bin/mahout seqdumper -i /user/hadoop/grants-seqdir/part-m-00000 


# 从 语料库 生成 所 有 统计 信息 ， 如 tf、df 和 tf-idf。 生 成 每 个 单词 的 ITD， 并 构造 字典 文件 。 所 有 的 向 量 都 是 稀 
SA. 
bin/mahout seq2sparse -i /user/hadoop/grants-segdir/ -o 
/user/hadoop/grants-seqdir-sparse --maxDFPercent 85 
--namedVector 


# 检测 tf-idf 向 量 。 
bin/mahout seqdumper -i /user/hadoop/grants-seqdir-sparse/tfidf- 
vectors/part-r-00000 


# 检测 包含 单词 ID 映射 的 字典 文件 。 
bin/mahout seqdumper -i /user/hadoop/grants-seqdir- 
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sparse/dictionary.file-0 


# 使 用 tf-idf 的 余弦 值 作为 距离 度量 ,运行 kmeans 分 入 3 个 族 集 。 
bin/mahout kmeans -i /user/hadoop/grants-seqdir-sparse/tfidf- 
vectors/ -c /user/hadoop/grants-kmeans-clusters -o 
/user/hadoop/grants-kmeans -dm 
org.apache.mahout.common.distance.CosineDistanceMeasure 


-x 10 -k 3 


-ow --clustering 


# 使 用 cluster dump 得 到 有 聚 类 的 度量 指标 。 
bin/mahout clusterdump -i /user/hadoop/grants-kmeans/clusters-*- 
final -o clusterdump -d /user/hadoop/grants-seqdir- 
sparse/dictionary.file-0 -dt sequencefile -b 100 -n 20 -- 
evaluate -dm 


org.apache 


.mahout.common.distance. 


CosineDistanceMeasure -sp 0 -- 
pointsDir /user/hadoop/grants-kmeans/clusteredPoints 


使 用 Apache Mahout 运 行 k-means 聚 类 的 步 又 如 下 所 示 。 


(]) Mahout 库 有 一 个 选项 seaqirectory 可 以 从 一 个 目录 创建 SequenceFile。 seqdirectory 


命令 有 很 多 选项 ， 


例如 ， 设 置 使 


的 编码 、 块 的 大 小 《MB ) 和 文件 分 析 的 类 名 字 。 在 下 面 的 例 


子 ， 我 们 创建 一 个 grants-seqdir 文 件 ， 使 用 的 是 UTF-8 编 码 和 5 MB 的 文件 块 。 

(2) seadqumper 命 令 是 Mahout 库 中 查看 序列 化 文件 的 一 个 很 有 用 的 工具 。 在 下 面 的 例子 ， 我 
们 将 观察 序列 文件 的 一 部 分 。 每 个 记录 的 “ 键 ” 是 由 文件 名 组 成 ， 而 “ 值 ”由 文件 的 内 容 组 成 。 
授权 文档 示例 与 下 面 的 代码 片段 类 似 ; 


Key: /a9996416.txt: Value: 
Problems in Optics 


Type 

NSF Org 
Latest 
Amendment 
Date 

File 


Award Number: 
Award Instr.: 
Prgm Manager: 


Start Date 
Expires 


: Award 
: DMS 


: September 13 
: a9996416 
9996416 


DMS DIVISION 


Title : Inverse Diffraction 


, 1999 


Standard Grant 
Deborah Lockhart 


OF MATHEMATICAL SCIENCES 


MPS DIRECT FOR MATHEMATICAL & PHYSICAL SCIEN 
: August 16, 1999 
: June 30, 2001 (Estimated) 


(3) sed2 spare 是 另 一 个 很 有 用 的 命令 行 ， 它 从 序列 文件 创建 向 量 。 这 个 命令 会 输出 两 种 类 
型 的 向 量 : 第 一 种 是 以 文档 的 ID 和 文档 单词 的 向 量 组 成 的 一 个 序列 文件 ;第 二 种 是 由 文档 ID 和 
Tf-idf 评 分 向 量 组 成 的 序列 文件 。seq2sparse 命 令 使 我 们 不 用 单独 计算 Tf-idf 评 分 ， 且 这 个 命令 
有 很 多 的 选项 ， 例 如 ，-namedVector 创 建 一 个 带 名 字 的 向 量 ，-maxDFPercent 用 于 设置 参与 
计算 文 频 度量 的 文档 数 的 最 大 百分比 ，-minDF 用 来 设置 某 个 单词 的 最 小 文 频 。 在 下 面 的 例子 中 ， 
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ur 


我 们 使 用 命名 向 量 和 值 为 85 的 maxDFPercent 来 为 授权 文档 创建 向 量 。 下 面 是 HDFS 中 
grants-seqdir-sparse 目 录 的 列表 : 


T 


Found 2 items 

-rw-r--r-- 3 sandeepkaranth supergroup 0 2014-09-09 
15:14 grants-seqdir-sparse/df-count/ SUCCESS 

-rw-r--r-- 3 sandeepkaranth supergroup 159253 2014-09-09 
15:14 grants-seqdir-sparse/df-count/part-r-00000 

Found 1 items 

-rw-r--r-- 3 sandeepkaranth supergroup 162107 2014-09-09 
15:14 grants-seqdir-sparse/dictionary.file-0 

Found 1 items 

-rw-r--r-- 3 sandeepkaranth supergroup 159233 2014-09-09 
15:14 grants-seqdir-sparse/frequency.file-0 

Found 2 items 

-rw-r--r-- 3 sandeepkaranth supergroup 0 2014-09-09 
15:14 grants-seqdir-sparse/tf-vectors/ SUCCESS 
-rw-r--r-- 3 sandeepkaranth supergroup 646642 2014-09-09 
15:14 grants-seqdir-sparse/tf-vectors/part-r-00000 

Found 2 items 

-rw-r--r-- 3 sandeepkaranth supergroup 0 2014-09-09 
15:14 grants-seqdir-sparse/tfidf-vectors/ SUCCESS 
-rw-r--r-- 3 sandeepkaranth supergroup 646642 2014-09-09 
15:14 grants-seqdir-sparse/tfidf-vectors/part-r-00000 
Found 2 items 

-rw-r--r-- 3 sandeepkaranth supergroup 0 2014-09-09 
15:14 grants-seqdir-sparse/tokenized-documents/ SUCCESS 
-rw-r--r-- 3 sandeepkaranth supergroup 884092 2014-09-09 
15:14 grants-seqdir-sparse/tokenized-documents/part-m-00000 
Found 2 items 

-rw-r--r-- 3 sandeepkaranth supergroup 0 2014-09-09 
15:14 grants-seqdir-sparse/wordcount/ SUCCESS 

-rw-r--r-- 3 sandeepkaranth supergroup 193944 2014-09-09 
15:14 grants-seqdir-sparse/wordcount/part-r-00000 


(4) 我 们 使 用 seqdumper 命 令 行 检测 创建 好 的 文件 。 Tf-idfIs] t FIG 2 8-18] IDIIEÉS] A5] to Sc (^F 
都 使 用 seqdumper 命 令 行 检测 。 如 下 的 输出 给 出 了 一 个 单独 文件 的 Tf-idf 向 量 和 字典 文件 的 片段 : 


Key: /a9996454.txt: Value: 

/a9996454.txt:(3050:4.144606113433838,277:2.0784096717834473,501:3.953550577163696 
3,190:1.200166940689087,6974:2.745239496231079,998:3.8460910320281982,6977:1.97105 
10969161987,2819:2.483874797821045,2496:1.2779039144515991,1185:4.52409553527832,2 
039:1.704549789428711,4493:2.9781711101531982,4418:3.870169162750244,4868:3.562684 
2975616455,5574:4.786459922790527,5556:6.918078899383545,5802:4.449987411499023,77 
9:5.297285556793213,1037:3.028601884841919,5024:3.655057668685913,6496:2.589235305 
786133,1246:5.009603500366211,7356:3.793208122253418,4662:3.5413002967834473,6829: 
3.756840467453003,4325:2.8123786449432373,2121:4.449987411499023,6497:5.2927870750 
42725,2640:3.2604033946990967,1045:4.316456317901611,1542:5.075188636779785,643:5. 
143134593963623,2411:4.316456317901611,5123:7.907101154327393,5565:6.3307456970214 
84,4773:2.556445360183716,7500:3.1770219802856445,6687:5.080615043640137,2683:4.21 
1770057678223,321:5.143134593963623,850:3.451458692550659,5807:3.1000609397888184, 
7750:5.479607105255127,6370:3.157219171524048,2868:5.9904327392578125,5561:2.27686 
0475540161,3510:4.95756196975708,7066:4.691149711608887,5721:3.655057668685913,267 
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3:4.786459922790527,2397:4.604138374328613,5208:2.784979820251465,195:1.6337237358 
093262,7737:3.3048553466796875,1856:8.246277809143066,1854:5.479607105255127,3564: 
4.449987411499023,1402:3.451458692550659,7533:2.2746293544769287,1881:5.2972855567 
93213,5236:2.493925094604492,5595:3.756840467453003,4947:2.589235305786133,5707:3. 
081711769104004,6532:5.9904327392578125,4031:4.144606113433838,7249:2.840549707412 
7197,4208:2.252763032913208,1902:4.997402191162109,5624:4.891820430755615,4676:1.9 
650808572769165,7765:2.4770045280456543,1638:12.79179573059082,1637:4.604138374328 
613,2995:2.930161714553833,4099:3.157219171524048,2778:5.143134593963623,5874:2.93 
0161714553833,2483:8.76198959350586,574:5.143134593963623,3847:3.2199668884277344, 
6704:4.786459922790527,3485:2.9146575927734375,3529:7.0053181648254395,7574:5.1431 
34593963623,7608:3.4781270027160645,2697:4.198673248291016,3597:2.84804368019104,5 
083:1.8686890602111816,2435:3.9109909534454346,2896:3.756840467453003,7386:5.47960 
7105255127,6678:5.9904327392578125,4613:4.255831718444824,1526:4.691149711608887,4 
517:5.26334810256958,4218:7.2734904289245605,2561:2.5044660568237305,2425:2.611708 
164215088,7065:4.255831718444824,387:5.143134593963623,6800:3.687847375869751,6244 
:2.635207414627075,3846:3.687847375869751,5904:2.352846384048462,3954:4.1446061134 
33838,197:2.4069137573242188,6774:4.604138374328613,3235:3.756840467453003,7205:5. 
143134593963623,1224:4.38099479675293,6898:2.473924398422241,32:1.2630447149276733 
,601:5.143134593963623,3943:5.9904327392578125,2509:4.891820430755615,7181:3.47812 
70027160645,3337:4.188774108886719,3860:2.6702041625976562,6963:4.198673248291016, 
7216:3.5336968898773193,3925:4.152933120727539,1863:5.7027506828308105) 

Input Path: /user/sandeepkaranth/grants-seqdir-sparse/dictionary. 

file-0 

Key: zirconia: Value: 7871 

Key: znati: Value: 7872 

Key: zoe: Value: 7873 

Key: zone: Value: 7874 

Key: zones: Value: 7875 

Key: zooplankton: Value: 7876 

Key: zygotes: Value: 7877 

Key: zygotic: Value: 7878 


(5) 一 旦 我 们 得 到 了 授权 文件 的 向 量 表达 形式 ， 就 可 以 运行 k-means 聚 类 算法 了 。Mahout 库 有 
kmeans 命 令 行 可 以 用 于 运行 这 个 聚 类 算法 。 我 们 选择 的 距离 度量 是 余弦 距离 度量 , 可 以 通过 -dm 


选项 来 指定 。 它 通过 org.apache.mahout .commnon.distance.CcosineDistanceMeasure 类 


实现 。 在 下 面 的 例子 中 , 我 们 通过 -k 选 项 指定 艇 集 的 数量 为 3。-x 选 项 用 于 指定 迭代 的 最 大 数量 ， 
在 此 例 中 设置 为 10。 


(6) 我 们 使 用 Mahout 文 持 的 clusteraqump 命 令 行 查 看 kmeans 聚 类 算法 输出 的 结果 。 
clusteraump 命 令 行 有 很 多 精心 设计 的 选项 ， 例 如 ，_b 选 项 允许 用 户 选 择 待 显示 文件 中 的 字符 
数量 ，-n 选 项 基于 Tf-idf 分 值 显示 最 高 的 z 个 单词 ，-evaluate 选 项 将 对 输入 进行 评估 。 如 下 的 片 
段 显示 了 clusterdump 命 令 行 的 输出 


14/09/09 15:45:51 INFO evaluation.ClusterEvaluator: Scaled Inter-Cluster Density = 
0.6053257638783347 
14/09/09 15:45:51 INFO evaluation.ClusterEvaluator: IntraCluster Density[277] 
0.6828160148795702 
14/09/09 15:45:51 INFO evaluation.ClusterEvaluator: IntraCluster Density[423] 
0.6729720492208191 
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14/09/09 15:45:51 INFO evaluation.ClusterEvaluator: IntraCluster Density[97] = 
0.6610114589088609 


14/09/09 15:45:51 INFO evaluation.ClusterEvaluator: Average Intra-Cluster Density = 
0.6722665076697502 


14/09/09 15:45:51 INFO clustering.ClusterDumper: Wrote 3 clusters 


12.5 RHadoop 


R 是 一 种 用 于 统计 学 、 数 据 科学 和 可 视 化 的 编程 语言 ， 拥 有 大 量 包 可 以 导入 ， 以 完成 特定 的 
或 自 定义 的 任务 。 它 还 有 超过 5000 个 数据 分 析 算 法 库 的 实现 。 这 些 算法 可 以 很 方便 地 用 于 各 种 数 
据 分 析 任 务 , 远 远 超过 Apache Mahout 所 支持 的 数据 分 析 任 务 。 使 用 R 语 言 的 社区 不 仅 范围 广 ， 而 
HAER IESER. 


然而 ，R 有 两 个 缺点 : 在 内 存 中 执行 ; 对 多 线程 的 支持 有 限 。R 的 缺点 使 得 其 不 适合 大 数据 ， 
因为 在 这 种 环境 下 基于 磁盘 的 分 析 和 分 布 式 是 必 不 可 少 的 因素 。 一 种 替代 方案 是 在 Hadoop 
Streaming 中 使 用 R 程 序 ， 但 这 个 建议 其 实 很 无 聊 ， 因 此 我 们 必须 来 展望 一 下 RHadoop。RHadoop 
也 使 用 Hadoop Streaming 作 为 执行 R 脚 本 的 底层 原理 ， 但 是 消除 了 原始 流 处 理 中 很 多 让 人 烦恼 的 
方面 。RHadoop 的 一 些 优 点 如 下 所 示 。 


O 它 无 需 在 MapReduce 中 手动 编写 R 功 能 。 内 置 的 库 函 数 自动 为 用 户 实现 这 个 功能 。 
a 它 允 许 从 HDFS 读 取 和 写 入 数据 。 
a 它 人 允许 同一 个 R 脚 本 既 在 本 地 也 在 集群 中 运行 。 


RHadoop 包 含 S 个 R 包 ， 可 以 用 于 在 Hadoop 中 分 析 数 据 ， 有 具体 如 下 所 示 。 


O ravro: 这 是 一 个 用 于 帮助 序列 化 和 反 序 列 化 的 R 包 ， 它 可 以 使 用 Avro 数据 格式 。 

口 rmr: 这 是 一 个 用 R 语 言 实现 的 提供 MapReduce 功 能 的 R 包 。 

O rhdfs: 这 是 一 个 用 R 语 言 实现 的 提供 管理 HDFS 文 件 功能 的 R 包 。 

口 rhbase: 这 是 一 个 用 R 语 言 实现 的 提供 管理 HBase 数 据 库 功能 的 R 包 。 

口 plyrmr: 这 是 一 个 用 于 处 理 结构 化 数据 的 R 包 ， 类 似 于 plyr。 这 个 包 使 用 rmr 作 为 底层 
框架 。 


12.6 小结 


Hadoop 对 于 大 数据 转换 和 处 理 是 一 个 非常 有 用 的 工具 , 它 可 以 很 方便 地 用 于 数据 分 析 工 作 流 
的 各 个 阶段 。 数 据 分 析 更 加 关注 的 是 数据 而 不 是 算法 。 较 大 规模 的 数据 会 使 预测 值 几 乎 翻番 。 数 
据 科 学 家 应 该 更 担心 数据 清洗 、 转 换 、 特 征 提取 和 结果 验证 ， 而 不 是 分 析 所 实际 使 用 的 算法 。 当 
然 , 这 并 不 是 说 分 析 算 法 的 选择 就 不 重要 ， 而 是 说 , 对 于 有 效 的 决策 过 程 而 言 ， 其 他 的 一 些 因素 
也 同样 重要 和 关键 。 
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本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 Hadoop 通 常 在 数据 规模 等 于 或 超过 1 TB 时 才 使 用 ,但 是 它 简 单 易 用 的 函数 编程 概念 也 吸 
引 人 们 将 其 用 在 较 小 规模 的 数据 上 。 这 样 做 也 无 可 厚 非 ， 只 是 要 清楚 这 么 做 会 引入 更 高 
的 延 时 。 

口 数据 挖掘 这 个 分 文学 科 是 从 数据 中 发 觉 模式 和 知识 。 机 器 学 习 为 数据 挖掘 提供 了 工具 。 

口 机 器 学 习 的 算法 分 为 监督 学 习 、 非 监督 学 习 和 半 监 督学 习 。 监 督学 习 要 求 领 域 专家 为 数 
据 打 标签 ， 这 个 过 程 非常 昂贵 。 现 在 有 一 些 新 式 众 包 方 法 可 以 收集 标签 数据 ， 其 中 一 个 
便 是 使 用 亚马逊 的 Mechanical Turks 

口 Apache Mahout 和 RHadoop 是 Hadoop 上 很 受 欢 迎 且 广 受 支持 的 数据 分 析 库 。 从 2014 年 4 月 开 
tR, Apache Mahout 停 止 接受 使 用 MapReduce 模 式 实现 的 算法 。 然 而 ， 库 中 已 存在 的 条 目 
还 是 支持 Hadoop 的 。 使 用 这 些 算法 时 ， 一 定 要 检查 算法 库 的 实现 是 否 实现 并 行 化 ， 因 为 
这 些 库 也 接受 非 并 行 化 的 单机 实现 。 

口 Tf-idf 是 一 个 很 受 欢迎 的 文本 分 析 度 量 指标 。 它 既 考 虑 了 一 个 单词 在 一 个 文档 中 的 普及 度 ， 
也 通过 观察 文档 源 的 语料库 来 折 训 那些 无 区 分 意义 的 单词 。 余 弦 距 离 被 用 于 度量 文档 间 
的 距离 ， 而 欧 几 里 得 距离 之 所 以 不 合适 ， 是 因为 文档 的 长 度 会 使 结果 造成 很 大 差异 。 


微软 Windows 中 的 Hadoop 


传统 上 , Hadoop 支 持 在 基于 Unix 的 操作 系统 上 运行 。 在 微软 Windows 上 安装 Hadoop 显 得 繁琐 
且 不 兼容 ， 这 需要 安装 基于 Unix 的 模拟 器 (如 Cygwin )， 安 装 步 又 类 似 于 在 Unix 系 统 上 安装 
Hadoop。 还 可 以 在 Windows 主 机 上 运行 Linux 虚 拟 机 ， 然 后 在 虚拟 机 上 安装 Hadoop。 但 是 Hadoop 
一 直 都 不 能 原生 地 支持 微软 Windows 操 作 系 统 ， 直 到 Hadoop 2.0 的 出 现 。 


现在 所 有 的 大 玩家 都 移 到 了 云 上 , 因此 Hadoop 即 服务 的 概念 变 得 流行 起 来 。 利用 此 服务 在 云 
端 分 析 大 数据 ， 是 一 条 便捷 且 实 惠 的 途径 。 微 软 通过 Azure 云 服务 套件 也 加 入 了 云 服务 浪潮 。 微 
软 Azure 云 服务 不 仅 支持 Linux 虚 拟 机 ， 而 且 也 提供 HaaS。 如 Hortonworks 这 样 的 玩家 与 微软 展开 
合作 ， 一 起 引领 Hadoop 进 入 Windows。 


Hadoop 对 微软 Windows 的 原生 支持 之 所 以 变 得 极为 重要 ， 原 因 如 下 所 示 。 


O 众所周知 , 微软 Windows 拥 有 优秀 的 商业 智能 工具 。 这些 工具 通过 分 析 和 可 视 化 企业 级 数 
据 来 帮助 做 出 有 影响 力 的 决策 , 其 中 一 些 典 型 工具 如 Microsoft Excel, PowerPivot for Excel 
和 PowerView。 利 用 Hadoop 存 储 和 处 理 大 数据 能 释放 这 些 Windows 原 生 工 具 的 潜能 。 

口 SQL Server 及 相关 技术 是 原生 的 Windows 数 据 库 解决 方案 ， 在 很 多 企业 中 都 广泛 部 署 。 它 
们 符合 企业 级 存储 并 管理 结构 化 数据 的 需求 。 随 着 Windows 上 的 Hadoop 变 得 原生 化 ， 非 
结构 化 数据 也 可 以 和 结构 化 数据 结合 一 起 来 帮助 做 出 富有 洞察 力 的 决策 。 对 企业 来 说 ， 
其 中 涉及 的 迁移 和 学 习 成 本 几乎 为 零 。 


在 本 章 ， 我 们 将 学 习 如 何在 微软 Windows 上 部 署 单 节点 Hadoop。 


在 微软 Windows 上 部 署 Hadoop 


在 本 节 ， 我 们 将 详细 了 解 如 何在 Windows 系 统 上 原生 地 构建 和 安装 Hadoop 。 我 们 会 使 用 
Windows 8 来 安装 Hadoop 。 安 装 步 又 同样 适用 于 Windows Server 2008 或 Windows 7。 我 们 会 将 
Hadoop 安 装 在 运行 64 位 硬件 的 64 位 的 Windows 操 作 系 统 上 。 
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前 提 条 件 
为 了 在 Windows 上 安装 Hadoop， 首 先 需 要 安装 以 下 平台 、 软 件 和 工具 。 


口 Java JDK: Java 是 Hadoop 的 灵魂 ， 必 须 安装 在 机 右上 。Oracle 中 的 Java 有 Java Runtime 
Environment ( JRE ) 和 Java Development Kit (JDK ) 。 安装 Hadoop 需 要 JDK。 从 Oracle 网 
站 上 可 以 获得 JDK。 青 次 重申 ,一 定 要 选择 版 本 高 于 1.6 的 JDK 我们 将 选择 最 新 版 一 一 JDK 
1.8。 以 下 屏幕 截图 展示 了 可 以 下 载 JDK 的 页 面 。 本 例 中 ， 我 们 选择 Windows x64 的 产品 。 
32 位 的 用 户 可 以 选择 Windows x86 的 产品 。 下 载 大 小 约 170MB。 一 旦 下 载 完 毕 , 可 以 使 用 
下 载 包 中 的 安装 程序 进行 安装 。 为 JDK 选 择 合适 的 处 理 器 架构 和 OS 很 重要 ， 否 则 会 导致 
出 乎 意料 的 不 利 后 果 。 


Java SE Development Kit 8u20 
You must accept the Oracle Binary Code License Agreement for Java SE to download this 
software. 


Thank you for accepting the Oracle Binary Code License Agreement for Java SE; you may now 
download this software. 


Product / File Description File Size Download 
Linux x86 13524MB Š jdk-8u20-linux-i586.rpm 
Linux x86 154.87 MB Š jdk-8u20-linux-i586.tar.gz 
Linux x64 1356 MB Š jdk-8u20-linux-x64.rpm 
Linux x64 15342MB $* jdk-8u20-linux-x64.tar.gz 
Mac OS X x64 209.11MB Š jdk-8u20-macosx-x64.dmg 
Solaris SPARC 64-bit (SVR4 package) 137.02MB Š jdk-8u20-solaris-sparcv9.tar.Z 
Solaris SPARC 64-bit 97.09 MB Š jdk-8u20-solaris-sparcv9.tar.gz 
Solaris x64 (SVR4 package) 137.148 MB Š jdk-8u20-solaris-x64.tar.Z 
Solaris x64 94.22 MB * jdk-8u20-solaris-x64.tar.gz 
Windows x86 161.08 MB $* jdk-8u20-windows-i586.exe 
Windows x64 173.08MB Š jdk-8u20-windows-x64.exe 


Java SE Development Kit 8u20 Demos and Samples Downloads 


Java SE Development Kit 820 Demos and Samples Downloads are released under the Oracle 


BSD License. 

Product/File Description | File Size Download 
Linux x86 58.55 MB Š jdk-8u20-linux-i586-demos.rpm 
Linux x86 5849MB Š jdk-8u20-linux-i586-demos.tar.gz 
Linux x64 5871MB Š jdk-8u20-linux-x64-demos.rpm 
Linux x64 58.58 MB Š jdk-8u20-linux-x64-demos.tar.gz 
MacOSX 59.22 MB Š jdk-8u20-macosx-x86 64-demos.zip 
Solaris SPARC 64-bit 1357MB Š jdk-8u20-solaris-sparcv9-demos.tar.Z 
Solaris SPARC 64-bit 9.28 MB Š jdk-8u20-solaris-sparcv9-demos.tar.gz 
Solaris x64 13.5 MB Š jdk-8u20-solaris-x64-demos.tar.Z 
Solaris x64 9.22 MB Š jdk-8u20-solaris-x64-demos.tar.gz 


O 设置 path 变量 : 现在 需 设置 Windows Path 环 境 变量 ， 这 样 命令 行 工 具 才能 直接 从 路 径 中 
获取 Java 可 执行 文件 。 在 Windows 控 制 面板 ( control panel ) 里 的 系统 属性 (system property ) 
下 ， 有 个 环境 变量 (environment variables ) 按钮 。 点 击 这 个 按钮 会 弹出 环境 变量 对 话 框 。 
如 果 合 适 的 环境 变量 已 经 存在 ， 那 么 可 以 选中 后 进行 编辑 ， 否 则 我 们 需 全 新 创建 一 个 。 
我 们 使 用 现存 的 Path 变 量 ， 并 添加 Java 二 进 制 文件 的 pn 目录 。 在 之 前 的 例子 中 ， 目 录 是 
C:\Program FilesVyavajdk1.8.0_20\bin\。 需 用 分 号 隔 开 不 同 的 路 径 ， 这 很 重要 。 可 以 打开 命 
令 提 示 符 ， 然 后 键入 java -version 来 测试 路 径 是 否 正确 。 以 下 屏幕 截图 展示 了 如 何 设 
置 Path 环 境 变 量 : 


在 微软 Windows 上 部 署 Hadoop 
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CAWindowsYsystem32Ncmd.exe 


System Properties 


Computer Name | Hardware | Advanced | System Protection | Remote 


You must be logged on as an Administrator to make most of these changes 
Performance 
Visual effects, processor scheduling, memory usage, and virtual memory 


Environment Variables 


Path 


| OC: Program Files Qavalidk1.8.0. 20YbinV 
User Profiles 
Desktop settings related to your signin 
[ * 
L Sets... System variables 
Startup and Recovery Variable Value te 
System startup, system failure, and debugging information os Windows, NT 
Se Path C:\ProgramData\Orade Yavaljavapath;... 
| Settings... PATHEXT .COM;.EXE;.BAT;.CMD;.VBS;. VBE;.JS;.... 
PROCESSOR A... AMD64 M 
Envronmert Variables ow. || Edt || Delete 
-一 二 
1 » OK Cancel 
| ok | Cancel | Apply 


D 设置 IaAva_HOME 环 境 


择 Java 的 版 本 。 


变量 : 所 有 的 Hadoop 二 


一 定 要 在 开始 部 署 和 使 用 Hadoop 之 前 设置 这 个 


进 制 文件 都 通过 查询 JAVA_HOME 目 录 来 选 


B— 
变量 。 


再 次 使 用 环境 变量 


对 话 框 来 设置 这 个 变量 。 这 次 ， 我 们 不 使 用 编辑 ， 而 是 点 击 新 建 (new ) 按钮 来 添加 一 个 


VIN EN 


变量 。 我 们 设置 JAVA_HOMI 


要 注意 的 一 


点 是 ，Program Files 目 录 被 缩写 成 8 字 目 录 ， 


称 为 Progra~1。 


无 法 处 理 路 径 中 的 空格 。Windows 操 作 系统 理解 这 种 8 字 格 式 ， 因 为 它 是 一 个 遗留 特 怕 


以 下 屏幕 截图 展示 了 如 何 实际 设置 JAVA_HOMI 


6 环境 变量 。 


System Properties 


Advanced 


Computer Name | Hardware. System Protection | Remote 


You must be logged on as an Administrator to make most of these changes. 
Performance 
Visual effects, processor scheduling, memory usage, and virtual memory 


User Profiles 
Desktop settings related to your signin 


Startup and Recovery 
System startup, system failure, and debugging information 


OK 


Apply 


Environment Variables 


User variables for SandeepKaranth 


JAVA_HOME 


:Progra~1Yava\jdk 1.8.0 20 


OK 


asl.log Destination -file 
ComSpec C:\Windows\system32\cmd.exe 
FP NO HOST C... NO 
JAVA HOME C:WPrograiUavaVdki.8.0 20 M 
New... Edit... Delete 
OK Cancel 


EJJC:VXProgra-1NJavaNMjdk1.8.0 .20。 这 里 需 
这 是 因为 Hadoop 


HT 


o 
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译 源 代 
adoop 


口 下 载 Hadoop 源 代码 : 我 们 从 最 近 的 镜像 站 点 下 载 Hadoop 源 代码 。 下 载 源 代码 ， 编 
码 , 然 后 把 Hadoop 部 署 在 Windows 上 ,这 对 于 原生 支持 很 重要 。 当 在 Windows 上 部 署 H 
二 进 制 包 时 ， 会 抛 出 错误 。 以 后 可 能 会 支持 使 用 二 进 制 包 安装 Hadoop 。 我 们 选择 安装 
Hadoop 的 最 新 版 本 , Hadoop 2.5.0。 如 以 下 屏幕 截图 所 示 , 我 们 只 下 载 tar 格 式 的 源码 文件 ， 
hadoop-2.5.0-src.tar.gz。 这 个 源码 包 可 以 解压 到 一 个 本 地 目录 。 下 载 大 小 约 为 15 MB. 


本 例 中 ， 我 们 下 载 并 解压 源码 包 到 目录 C:\hdp\hdp 下 。 短 目录 名 是 有 好 处 的 。Windows 对 
目录 名 有 最 大 字符 数 的 限制 。 


€ > Q |[!mirrorsibiblio.org/apache/hadoop/common/hadoop-2.5.0/ i$ 三 
Index of /apache/hadoop/common/hadoop-2.5.0 
Name Last modified Size Description 
le Parent Directory - 
i” nadoop-2.5.0-src.tar.d2 06-Aug-2014 13:51 15M 
2] nadoop-2.5.0-src.tar.qgz.mds 06-Aug-2014 16:54 1.2K 
ex hadoop-2.5.0.tar.qz 12-Aug-2014 08:00 297M 
2] nadoop-2.5.0.tar.qz.mds 12-Aug-2014 08:04 1.1K 
|Apache Server at mirrors.ibiblio.org Port 80 
&EUBH OM N HB se 
ri E xU d VE d o rf 


口 Protobuf 编 译 器 ，Protobuf 是 一 种 序列 化 格式 ，Hadoop 构 建 的 过 程 中 
要 下 载 Windows 版 的 编译 器 二 进 制 文件 。 本 例 中 ， 我 们 选择 protoc-2.5.0-win32.zip， 下 载 


页 面 如 以 下 


异 幕 截图 所 示 。 一 旦 下 载 完毕 并 完成 解压， 我 们 使 用 环境 交 量 对 话 框 把 


protobuf 编 


译 吉 的 bin 目 录 添 加 到 Path 中 。 


€ > QC B https//code. 


google.com/p/protobuf/downloads/detail?name- protoc-2.5.0-win32.zip&can-2&q- 


protobu 


SS 
e 


Protocol Buffers - Google's data interchange format 


Project Home | Downloads 


My favorites v | Sign in 


f 


|Search projects | 


Wiki  |ssues Source 


Search | Current downloads. 


Download: 
75 people 


Uploaded by: xiaof...(o google.com 
Released: Feb 27,2013 
Uploaded: Feb 27, 2013 
Downloads: 81543 
Type-Executable 
OpSys-Windows 

Featured 


v | for 


Protocol Buffers 2.5.0 compiler -- Windows binary 


Search| 


starred this download 
File: (3 protoc-2.5.0-win32.zip 637 KB 
Description: 


SHA1 Checksum: 398d9c5af7c42e94828f30bb1b79ed15abedd67f What's this? 
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|a Maven 构 建 系统 : Hadoop 使 用 Maven 构 建 系统 进行 构建 。 这 个 构建 系统 在 pom.xml 文 件 中 
对 项 目 进行 了 规范 化 的 描述 ， 这 个 文件 位 于 Hadoop 源 码 的 root 目 录 下 。 为 了 在 Windows 上 
od 我 们 可 以 访问 Maven 项 目 页 面 ， 然 后 下 载 最 新 的 Apache Maven 二 进 制 包 。 我 


们 选择 的 版 本 为 3.2.3。 一 旦 下 载 完 毕 就 解压 ZIP 文 件 , 为 了 便于 使 用 , 需 再 次 把 bin 目 录 添 
加 到 Path 环 境 变量 中 。 


€ > Q D mavenapacheorg/downlcad.cgi 


Apache Maven Project - : 一 一 一 | 


Apache > Maven > Download Apsche Maven Last Published: 2014-09-64. 


Main 0000 O Download Apache Maven 3.2.3 
Welcome. 
Maven is distributed in several formats for your convenience. Use a source archive £f you intend to buld Maven yourself. Otherwise, simply pick a ready-made binary distribution 
*Get Maven à and follow the installation instructions given at the end of this document. 


You will be promoted for a mirror ~ 4 the file is not found on yours, please be patient, as it may take 24 hours to reach all mirrors. 


es (3. i ) In order to guard against corrupted download«s/installations, it is highly recommended to verify the signature of the release bundles against the public KEYS used by the Apache 
Notes (3.0.5) Ma 'elopers. 
Maven i$ distributed under the Apache License, verson 2.0. 


We strongly encourage our users to configure a Maven repository miror closer to ther locaton, please read How to Use Marors for Repositones. 


Be sure to check the compatibility notes before using this version to avoid surprises. While Maven 3 aims to be backward-compatible with Maven 2.x to the extent possible, there 
pere are still a few significant changes. 


Wrote Maven? Be 
Festures 
FAQ (official) The currently selected mirror is http:/ /apache.mirrors.lucidnetworks.net/. If you encounter a problem with this mirror, please select another mirror. If all mirrors are falling, 
FAQ (unofficial) there are backup mirrors (at the end of the mirrors list) that shouid be available. 
: Documentation Other mrrors: [http://apache.mrrors Juadnetworks.net] "| [Change | 
5 ne 
més detenti You may also consult the complete list of mirrors. 
b User Centre 
^ jm Developer Centre. 
-coc77 m—————————— P —É——ÜÍ— 
Centre. 


a i no SDK。 如 果 你 使 用 x86 机 器 ， 那 就 一 定 要 获取 x86 构 建 工 
有 具 。 如 果 不 是 , 用 户 则 需要 获取 x64 构 建 工 具 。 安 装 高 SKU 的 Visual Studio 会 需要 安装 所 有 
的 必要 工具 。 本 例 中 ,我 们 将 安装 Visual Studio Express C++ 2010， 这 是 一 个 免费 的 Visual 
Studio。 这 个 Visual Studio SKU 不 包含 Windows SDK。 我 们 需 单 独 安 装 Windows SDK。 安 
装 Windows SDK 的 版 本 是 7.1。 为 了 验证 SDK 已 安装 完毕 , 你 可 以 查看 机 器 里 的 C:\Program 
Files\Microsoft SDKs\Windows 文 件 来 。 对 于 x86 的 机 器 ， 相 关 文 件 夹 是 C:\Program 
Files(x86)\Microsoft SDKs\Windows。 在 Path 环 境 变 量 中 包含 SDK 的 bin 目 录 也 很 重要 ,这 
样 在 构建 中 就 能 自动 获取 SDK。 也 可 以 安装 CMake 来 奉 代 Windows 构 建 工具 , 但 这 需要 用 
户 更 改 Hadoop 源 码 中 pom.xml 文 件 的 一 些 配置 。 


构建 Hadoop 


一 旦 准备 就 绪 , 就 能 构建 和 打包 Hadoop 了 。 为 了 构建 Hadoop , 你 需 打 开 Microsoft Visual Studio 
命令 提示 符 。 它 会 设置 一 些 必要 的 环境 配置 。 此 外 ， 还 需 注意 以 下 几 点 。 


(1) 根据 Hadoop 部 署 的 要 求 ， 设 置 Platform 环境 变量 为 x64 或 win32， 这 很 重要 。 可 使 用 如 
下 命令 完成 设置 : 
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set Platform-x64 
对 于 Win32， 使 用 如 下 命令 : 
set Platform=Win32 


(2) 保证 环境 变量 名 称 的 正确 性 ， 


Studio 项 目 文件 使 用 正确 的 构 dm 
(3) 下 一 步 则 是 真 


XL 


EE 
ES 
dal 
z 
e 
E 
3, 
CD 
[n 
E 


文 个 问题 。 


的 最 终结 果 。 标 准 输出 中 的 汇总 信息 显示 了 每 步 构建 的 状 


余 步 又 。 在 构建 过 程 中 ， 


自动 地 从 已 本 
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hadoop-yarn-api . 
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一 定 要 确保 计算 机 与 互联 网 连 
二 进 制 软件 仓库 中 下 载 依赖 软件 。 


Visual Studio Command Prompt (2010) | x | 
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Archiv 
Rumen " 
dmix .. 
ata Join 


Scheduler 


Total time 
shed at 
Final Memor 


2014- 


-distribute 
-unmanaged-am-laun 


well 


-core 


MapReduce Streaning 
Distributed Copy .. 


Mini-Cluster ... 
Load 


0?-13T00:00:36-07:00 


一 点 很 重要 。 这 个 变量 是 区 分 大 小 


写 的 ,并 用 于 指导 Visual 


A, 命令 mvn package-Pdist,native-win-Dskip- 
Tests-Dtar 用 于 启动 构建 。 a A 如 果 使 用 较 新 的 JDK 会 产生 解析 错误 。 可 以 
使 用 老 版 JDK( 如 1.7 ) 或 跳 过 生成 Javadocs 来 解决 这 


打包 ( package ) ftir 命令 中 添加 -Dmaven.javadocs .skip=true 选 项 。 


若 要 跳 过 生成 Javadocs , 需要 在 Maven 
以 下 屏幕 截图 展示 了 构建 


态 。 一 旦 构建 遇 到 失败 ,那么 将 跳 过 其 
通 ， 这 很 重要 。 在 构建 过 程 中 ，Maven 会 


WOOOAOOONOVJOOON 
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(4) 构建 会 生成 一 个 目标 (target) 目录 。 在 目标 目录 中 ，Hadoop 的 二 进 制 文件 、 示 例 以 及 本 
置 文件 都 会 被 打包 到 一 个 TAR 压缩 文件 中 。 本 例 产生 的 文件 是 hadoop-2.5.0.targz。 我 们 把 文件 内 
容 解压 到 C:\hdp\hdp 目 录 。 


配置 Hadoop 
在 本 节 ， 我 们 将 会 看 到 在 Windows 上 部 署 Hadoop 单 节点 的 不 同 配置 设置 。 


(1) Hadoop-env.cmd 文 件 位 于 etc\hadoop 目 录 下 ， 此 目录 在 Hadoop 安 装 路 径 的 根 目 录 下 。 这 个 
目录 是 Hadoop 的 配置 目录 。 为 了 正确 地 执行 Hadoop 守 护 进 程 , 需要 在 hadoop-envcmd 文 件 中 设置 
正确 的 环境 变量 信息 。 其 中 最 重要 的 配置 是 设置 JAVA_HOME 环 境 变 量 。 我 们 同样 需 设置 
HADOOP HOME 为 Hadoop 安 装 路 径 的 根 目 录 ，Hadoop 的 二 进 制 文件 和 配置 文件 都 在 这 个 目录 
下 。HADOOP_CONF_DIR 和 YARN_CONF_DIR 环 境 变 量 分 别 设置 为 Hadoop 和 YARN 的 配置 目录 。 本 
例 中 YARN 的 配置 目录 和 Hadoop 的 配置 目录 是 一 样 的 。 我 们 同样 需要 添加 Hadoop 目 录 到 Path 变 
量 。 以 下 脚本 片段 是 hadoop-env.cmd 脚 本 文件 的 一 个 样 例 : 


@rem The java implementation to use. Required. 
set JAVA HOME-?sSJAVA HOME% 


set HADOOP HOME-c: hdpMhdp 


QGrem The jsvc implementation to use. Jsvc is required to run secure datanodes. 
@rem set JSVC HOME-?sJSVC HOME% 


set HADOOP CONF DIR=%HADOOP HOME%\etc\hadoop 


set YARN CONF DIR-?:HADOOP CONF DIR% 
Set PATH=%PATH%;%HADOOP HOME%\bin 


@rem Extra Java CLASSPATH elements. Automatically insert capacity-scheduler. 
if exist %HADOOP HOME? NcontribNcapacity-scheduler ( 
if not defined HADOOP CLASSPATH ( 
Set HADOOP CLASSPATH-9*S(HADOOP HOME?$:NcontribNcapacity- 
scheduler\*. jar 
) eise ( 
set HADOOP CLASSPATH-?:HADOOP CLASSPATH?6;?9:HADOOP HOME?6 
NcontribNcapacity-schedulerM*.jar 


) 


Grem The maximum amount of heap to use, in MB. Default is 1000. 
Grem set HADOOP HEAPSIZE- 
Grem set HADOOP NAMENODE INIT HEAPSIZE-"" 


QGrem Extra Java runtime options. Empty by default. 
Grem set HADOOP OPTS-?^:HADOOP OPTS% - 
Djava.net.preferlIPv4Stack-true 
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@rem Command specific options appended to HADOOP OPTS when specified 
if not defined HADOOP SECURITY LOGGER ( 
set HADOOP SECURITY LOGGER-INFO,RFAS 
) 
if not defined HDFS AUDIT LOGGER ( 
set HDFS AUDIT LOGGER-INFO,NullAppender 


set HADOOP NAMENODE OPTS-- 
Dhadoop.security.logger-?$HADOOP SECURITY LOGGER% - 
Dhdfs.audit.logger-?^HDFS AUDIT LOGGER?; %HADOOP NAMENODE OPTS% 
set HADOOP DATANODE OPTS--Dhadoop.security.logger-ERROR,RFAS 
%HADOOP_ DATANODE OPTS% 
set HADOOP SECONDARYNAMENODE OPTS=- 
Dhadoop.security.logger-? S HADOOP SECURITY LOGGER% - 
Dhdfs.audit.logger-?SHDFS AUDIT LOGGER?6 
*?;SHADOOP SECONDARYNAMENODE OPTS% 


@rem The following applies to multiple commands (fs, dfs, fsck, distcp etc) 

set HADOOP CLIENT OPTS--Xmx512m %HADOOP CLIENT OPTS% 

Qrem set HADOOP JAVA PLATFORM OPTS-"-XX:-UsePerfData 
*;SHADOOP JAVA PLATFORM OPTS%" 


@rem On secure datanodes, user to run the datanode as after dropping privileges 
set HADOOP SECURE DN USER-9?:HADOOP SECURE DN USER?6 


@rem Where log files are stored. %HADOOP HOME?*/1logs by default. 
Grem set HADOOP LOG DIR=%HADOOP LOG DIR%\%USERNAME% 


QGrem Where log files are stored in the secure data environment. 
Set HADOOP SECURE DN LOG DIR-9*HADOOP LOG DIR%\%HADOOP_ HDFS USER?6 


Grem The directory where pid files are stored. /tmp by default. 
QGrem NOTE: this should be set to a directory that can only be written to by 


Qrem the user that will run the hadoop daemons. 
Otherwise there is the 
Qrem potential for a symlink attack. 


set HADOOP PID DIR=%HADOOP_ PID DIR% 
set HADOOP SECURE DN PID DIR-?^SHADOOP PID DIR%» 


QGrem A string representing this instance of hadoop. ?USERNAME?* by default. 
set HADOOP IDENT STRING=%USERNAME% 


(2) 接着 我 们 会 配置 core-site.xml 文 件 。 其 中 最 重要 的 配置 是 设置 fs .default .name 为 HDFS 
NameNode 的 主机 地 址 和 端口 。 本 例 中 , 因为 是 单 节 点 部 署 ,所 以 配 为 1ocalhost ,端口 是 19000。 
以 下 配置 片段 展示 了 这 个 设置 : 


«configuration» 
«property» 
«name»fs.default.name«c«/name» 
«value»hdfs://0.0.0.0:19000«/value» 
«/property» 
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«/configuration» 


(3) 我 们 接着 配置 hdfs-site.xml 文 件 。 在 这 里 ， 我 们 设置 复制 因子 为 1 ， 因 为 我 们 是 Hadoop 单 
节点 部 署 。 以 下 配置 片段 展示 了 这 个 设置 : 


<configuration> 
<property> 
<name>dfs.replication</name> 
«value»1«/value» 
«/property» 
«/configuration» 


(4) mapred-site.xml 也 需要 配置 ， 并 且 指向 Hadoop 2.X 的 YARN。s#USERNAMEs% 元 素 会 替换 成 
提交 作业 时 所 用 的 用 户 名 。 以 下 配置 片段 展示 了 mapred-site.xml 文 件 样 例 。 如 果 该 文件 不 存在 ， 
可 以 复制 位 于 配置 目录 的 mapred-site.xml.template 文 件 。 


<configuration> 
<property> 
<name>mapreduce.job.user.name</name> 
<value>%USERNAME%</value> 
</property> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
<property> 
<name>yarn.apps.stagingDir</name> 
<value>/user/%USERNAME%/staging</value> 
</property> 
<property> 
«name»mapreduce.jobtracker.address«/name» 
«value»local«/value» 
«/property» 
«/configuration» 


(5) yarn-site.xml 用 于 配置 ResourceManager 和 NodeManager 守 护 进程 。 这 些 配置 包括 守护 进程 
的 地 址 和 端口 以 及 日 志 目 录 ， 还 有 指定 的 洗 牌 处 理 器 。 以 下 配置 片段 展示 了 YARN 守 护 进程 的 样 
例 配 置 : 


<configuration> 
<property> 
<name>yarn.server.resourcemanager.address</name> 
<value>0.0.0.0:8020</value> 
</property> 
<property> 
<name>yarn.server.resourcemanager.application.expiry.interval</name> 
<value>60000</value> 
</property> 
<property> 
<name>yarn.server.nodemanager.address</name> 
<value>0.0.0.0:45454</value> 
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</property> 
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 

</property> 

<property> 
<name>yarn.nodemanager .auxservices.mapreduce.shuffle.class</name> 
<value>org.apache.hadoop.mapred 

.ShuffleHandler</value> 

</property> 

<property> 
«name»yarn.server.nodemanager.remote-app-logdir«/name» 

«value»/app-logs«/value» 

</property> 

<property> 
«name»yarn.nodemanager.log-dirs«/name» 

«value»/dep/logs/userlogs«/value» 

«/property» 

«property» 
«name»yarn.server.mapreduce-appmanager.attemptlistener.bindAddress«/name- 
«value»0.0.0.0«/value» 

«/property» 

«property» 
«name»yarn.server.mapreduce-appmanager.clientservice. 

bindAddress«/name» 

«value»0.0.0.0«/value» 

«/property» 

«property» 
«name»yarn.log-aggregation-enable«c/name» 
«value»true«/value» 

«/property» 

«property» 
«name»yarn.log-aggregation.retain-seconds«/name» 
«value»-1«/value» </property> 

«property» 
«name»yarn.application.classpath«/name» 
«value»$HADOOP CONF DIR$,$HADOOP COMMON HOMES /share/hadoop/common/*,$HADOOP 
. COMMON HOMES /share/hadoop/common/lib/*,£€HADOOP HDFS HOME$/share/hadoop/ 
hdfs/*,$HADOOP HDFS HOME$/share/hadoop/hdfs/lib/*,$HADOOP MAPRED HOMES/ 
share/hadoop/mapreduce/*,£HADOOP MAPRED HOME$/share/hadoop/mapreduce/lib 
/*,S$HADOOP YARN HOMEZ/share/hadoop/yvarn/*,$HADOOP YARN. HOMES /share/hadoop/ 
yarn/lib/*«/value» 

«/property» 

«/configuration-» 


部 署 Hadoop 
一 旦 配置 完毕 ， 就 可 以 启动 Hadoop 守 护 进 程 了 。 部 署 需 执 行 以 下 几 个 步骤 。 
(1) 启动 守护 进程 之 前 ， 我 们 可 以 使 用 以 下 命令 格式 化 NameNode。 


hdfs namenode -format 
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以 下 屏幕 截图 展示 了 格式 化 命 
个 特定 目录 名 ， 所 以 NameNode 


没有 指定 一 


Y 


令 的 执行 结果 。 现 在 HDFS 已 被 格式 化 ， 并 可 以 使 用 了 。 
会 使 用 Ci\tmp 目 录 来 存放 所 有 的 元 数据 。 
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(2) 我 们 接着 启动 HDFS 守 护 ; 


它们 。 这 个 命令 


T] FH Pi fel 
可 以 让 DataNode 与 NameNode 互 相 


脚本 位 于 %HADOOP HOME%\sbin 目 录 中 。Windows 防 火 墙 
F 守 护 进 程 在 防火 


进程 ， 即 NameNode 和 DataNode。 使 用 start-dfs.cmd 可 以 启动 
可 能 会 弹出 一 个 通知 ， 
中 打开 一 个 监听 端口 。 一定 要 允许 重新 配置 防火 墙 , 这 样 才 
凡 。 以 下 屏幕 截图 展示 了 Windows Firewall 的 访问 认可 界面 。 


AA 


何 
uz 


aBi y] 


246 附录 微软 Windows 中 的 Hadoop 


Ei Apache Hadoop Distribution - hadoop datanode co 


Cd Windows Security Alert 


Windows Firewall has blocked some features of Java(TM) Platform SE binary on all public and 


PENIS private networks. 
client Name: 
nt-connon 
Publisher: Orade Corporation 
Path: C:Wprogram files java jdk1.8.0, 20WbinVava.exe 


Allow Java(TM) Platform SE binary to communicate on these networks: 
Private networks, such as my home or work network 


build = Unknown 


[Z] Public networks, such as those in airports and coffee shops (not recommended 
because these networks often have litte or no security) 


What are the risks of allowing an app through a firewall? StPOARE co lected 


image for txid 8 fron 
i000000000000 


ing down NameNode at 
namenode . 
^ namenode . 
internal or external 


namenode - 


Using callQueue cl. 


一 旦 授权 了 访问 权限 ， 那 么 NameNode 和 DataNode 会 在 两 个 单独 的 命令 窗口 中 启动 ， 如 以 下 


屏幕 截图 所 示 。 在 这 两 个 窗口 中 ， 可 以 查阅 
者 可 以 使 用 HDFS 文 件 系 统 命令 来 测试 验证 HDFS。 在 开始 测试 前 ,你 可 
m 用 户 目录 。 


Visual Studio Command Prompt (2010) isual C++ 2010 Express 
-BlockManager: 


£sOune K ys Arda , fr 
lap\hdp\share\hadoop\napreduce" junit-4.11. hdp\hdp\share\hadoop\nap: 
lib\leveldbjni-a1l-1 .8.jar;c Sham apreduces Libs10g4j-1. 
NE "e hadoopNnapr, libnetty-3 Final.jai NS 
hdp\hd hadoopNnapre 
ava-1.0.4 


p p jar; 
UM type ^ hadoop-napr 8. jar;c i hdpNhdpNshareNhadoop 

1.84 max memory 889 Mi Ihadoop-napreduce-cli 5 : dpNshareNhadoopNnapi 

il capacity redu pNhdy doop 
INFO namenode NaneNo aching file names occurin: client-hs .B.jar;c: dpNshare NhadoopNnapred 
plugins -6-jaric “hdp hdp\share\hadoop\napreduc p-mapreduce-c li 
INFO util.GSet: Computing capacity for nap cachedB 5 s hdpNhdpNs hare NhadoopNnapreduce Nhadoop-napreduce-c 
INFO util.GSet: UM typ 64-bit 1 j T ar ;c :Nhdpshdpsshare NhadoopsnapreduceNhadoop-napreduc 
: 0.25 enory $8 5 hdp\hdp\share\hadoop\napreduce\hadoop-napreduc 


build = Unknown -r Unknown; compiled b: ndeepKaranth’ on 2014 


INFO namenode. d e inpl.Metr onfig: loaded properties from hadoop-net 
INFO namenode.FSNane: em: Retry cache on namenodi 51 INFO inpl.MetricsSystemInpl: Scheduled snapshot period at 18 


INFO nanenode sys : 14/09/13 04:29:51 INFO impl.MetricsSystemImpl: DataNode metrics system started 


Apache Hadoop Distribution - hadoop namenode 


1 INFO blocknanagenent.BlockManager: Total number of block 


INFO util.GSet: 
? INFO namenode -MI 
INFO namenode -NI 
? INFO namenode -NI 
tem in Storage Directory «tmpshadoop SandeepKaranth 


51 INFO blocknanagenent.BlockManager: Number of invalid block: 
INFO block: E anager: o r-replicated 


nanenode . FSIna a new BlockPoolld Number of over-replicated 


ctory NtmpNhadoop BlockManager: Number of blocks being writ| 


tentionManager: : STRTEx Repl 
J ted block 
5 INFO util.ExitUtil: Exiting with 


56 INFO namenode.NaneNode: SHUTDOWUN 


start 
RPC up 
Shutting down NameNode at 


ionMonitc 
ionMonitor: 


: Scanned 8 


NameNode 和 DataNode 的 命令 窗口 


每 个 HDFS 操 作 的 标准 输出 结果 。 一 旦 这 些 守护 进程 
能 得 使 用 


(3) 接 下 去 ,我 们 得 启动 YARN 用 于 运行 MapReduce 作 业 。 可 以 使 用 start-yarn.cmd 文 件 来 启动 


YARN， 此 文件 位 于 sbin 目 录 下 。ResourceManager 和 NodeManager 也 是 在 两 个 单独 的 命 


邻 窗口 中 
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启动 ， 如 以 下 屏幕 截图 所 示 。 这 些 窗口 中 的 标准 输出 结果 可 以 用 于 跟踪 调试 ResourceManager 和 


NodeManager。 


- ES m 


a Apache Hadoop Distribution - yam resourcemanager 


5 Apache Hadoop Distribution - yam. nodemanager - EZ 


Apache Hadoop Distribution - hadoop datanode 


ResourceManager 和 NodeManager 的 命令 窗口 


(4) 在 浏览 器 中 打开 localhost :50070， 用 户 就 能 在 Web 端 查看 HDFS。 其 主页 如 以 下 


截图 所 示 。 这 个 主页 展示 了 HDFS 健 康 度 概 况 和 不 同 的 配置 参数 。 


-口服 到 


V Namenodeinformaton x (T 


€ e localhost: 


Dalanodes Snapshot Startup Progress — Ulilies 


Overview .0.0.0:19000 (active) 


Started: Sat Sep 13 04 29.39 POT 2014 

Version: 250. runknown 

Compiled: 2014-09-13T06 527 by SandeepKaranth from Unknown 
Cluster ID: CIO-425849a7-fBeb-4026-b687.-266741ce0bao 

Block Pool ID: BP-1822145361-192 168 56 1-1410607675037 
Summary 


Security is off 

Satemode is off 

19 files and directones. 6 blocks = 25 total tlesystem object(s) 

Heap Memory used 49 54 MB of 103 MB Heap Memory Max Heap Memory is 889 MB 


Non Heap Memory used 37 37 MB of 36.31 MB Commited Non Heap Memory. Max Non Heap Memory is -1 B 


zi 


并 


(5) 在 顶部 栏 中 选择 Datanodes 链 接 可 以 查看 HDFS 中 不 同 的 DataNode 及 其 相关 健康 度 ， 如 以 


下 屏幕 截图 所 示 : 
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Datanode Information 


In operation 
Node. Last contact Admin Siate Capacity Used Won DFS Used Remang Bocks — Block pool used. Fated Volumes. Version 
skaranth-win (192 168 56 1 50010) è In Senice 28527 68 34493 KB 4371608 2415568 $ 346 83 KB (0*6) ð 250 


Decomissioning 


Under Repik ated Blocks. 
Node Last contact Under repiicated blocks Blocks with no Ive replicas. in Mes under constrection 


Hadoop, 2014 


(6) 顶部 栏 中 的 startup progress 链 接 展 示 了 HDFS 启 动 时 的 健康 度 。 其 中 包括 NameNode 启 动 时 
有 关 fsimage 和 edits 文 件 的 统计 信息 。 它 同时 也 标明 了 HDFS 是 否 处 于 安全 模式 。 


€ > Q QD localhost50070/díshealth htmltab-startup-progress 2 5 


Hadoop 


Startup Progress 


Elapsed Time. 8 sec, Percent Complete 100% 


Phase Completion Elapsed Time 
Loading fsimage C'tmpinadoop-SandeepKaranthidfsinamelcurrentifsimasge 0000000000000000000 360 B. 100% 0sec 
inodes (0/0) 100% 
Getegation tokens (0/0) 100% 
cache pools (0/0) 100% 
Loading edits 100% 0sec 
Saving checkpoint 1005 0sec 
Sate mode 1005. 0 sec 
awaling reported blocks (0/0) 100% 
Hadoop. 2014 


(7) utilities 链 接 有 两 个 选项 ; 一 个 是 浏览 HDFS， 另 一 个 是 查看 日 志文 件 。 基 于 查询 框 的 浏览 
功能 用 于 查询 HDFS 目 录 结 构 。 每 个 文件 的 列表 信息 ， 类 似 于 在 目录 上 执行 hafs dfs -1s 返 回 
的 结果 。 它 同时 也 展示 了 有 关 块 大 小 的 统计 信息 和 一 个 深度 链接 用 于 查看 文件 内 容 。 


[E Browsing HDFS x 


€ > ÇC |[localhost50070/explorer.html£/user/SandeepKaranth Z 三 


Hadoop, 2014 


Browse Directory 


luser/SandeepKaranth Go! 
Permission Owner Group Size Replication Block Size Name 
-nW-r-r— SandeepKaranth supergroup 7B 1 128 MB test.txt 


小 结 


云 计算 因 其 伸缩 性 和 成 本 高 效 性 渐渐 成 为 了 焦点 , 所 以 微软 也 加 入 了 这 个 领域 与 其 他 对 手 竞 


争 。 为 了 公平 竞争 ， 微 软 Azure 不 仅 支 持 基 于 Linux 的 虚拟 机 ， 同 时 也 支持 开源 大 数据 系统 ， 如 
Hadoop。HDInsight 基 于 微软 Azure 提 供 HaaS 服 务 。 


本 章 学 到 的 主要 内 容 如 下 所 示 。 


口 如 今 Hadoop 原 生 支 持 Windows， 无 需 在 Windows 操 作 系统 上 安装 Unix 模 拟 器 或 Linux 虚 拟 
机 。 

口 Hadoop Windows 原 生 支 持 版 不 具备 两 个 特性 : 安全 特性 和 短路 径 HDFS 读 取 ( short-circuit 
HDFS read )， 这 两 个 特性 还 没有 集成 到 这 个 系统 中 。 

口 Hadoop Windows 需 要 从 头 构建 Hadoop 。 目 前 还 没有 可 供 直接 下 载 的 Windows 版 Hadoop 二 
进 制 包 。 

口 HDInsight， 即 基于 微软 Azure 提 供 的 HaaS ， 支 持 与 Excel 无 颖 集成 ， 还 能 和 其 他 平台 集成 ， 
如 Hortonworks Data Platform。 
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